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ESTATÍSTICA APLICADA 
À ADMINISTRAÇÃO 


Prof. Marcelo Tavares 


Apresentação da Disciplina 


Seja bem-vindo ao estudo da Estatística, que segundo Triola (1999) é uma 
coleção de métodos para planejar experimentos, obter dados e organizá- 
-los, resumi-los, analisá-los, interpretá-los e deles extrair conclusões. 


Esperamos que esta disciplina seja uma experiência interessante e en- 
riquecedora. Pensando nisso, elaboramos o material com cuidado para 
que você aprenda os principais conceitos associados à Estatística, que 
vem se tornando cada vez mais importante no competitivo ambiente de 
negócios e de gestão. Juntos, iremos viajar pelo mundo dos números 
associados à estatística e suas relações no dia a dia do gestor público. 


O nosso principal objetivo é que você tenha a oportunidade de ampliar 
seu conhecimento sobre o universo da estatística. Dessa forma, não 
serão feitas neste material deduções e demonstrações matemáticas de 
expressões, mas, sim, uma abordagem mais abstrata das expressões a 
serem utilizadas. 


Você já deve estar acostumado a utilizar a estatística, ou ferramentas es- 
tatísticas, no seu dia a dia, sem saber que a está utilizando. Se você acha 
que a estatística se resume apenas a números e a gráficos, está redon- 
damente enganado. Dessa forma, estaremos, a partir de agora, entrando 
em um mundo no qual os números irão sempre lhe falar ou lhe contar 
alguma coisa. O seu trabalho usando a estatística passará a ser o de aju- 
dar a planejar a obtenção de dados, a interpretar e a analisar os dados 
obtidos e a apresentar os resultados de maneira a facilitar a sua tomada 
de decisões como gestor na área pública. 


Para gerar tabelas, gráficos e utilizar técnicas estatísticas, temos uma in- 
finidade de softwares que fazem isso automaticamente. Entretanto, para 
que você possa descobrir quais as respostas que os dados podem dar para 
determinados questionamentos, é necessário que saiba a teoria estatística 
e treine suas aplicações por meio de estudos de casos, ou situações. 


Sempre surgem, então, perguntas do tipo: quais variáveis devem ser me- 
didas? Como retirar amostras da população que se deseja estudar? Que 
tipo de análise realizar? Como interpretar os resultados? Esperamos que 
ao final da leitura deste material você tenha condições de responder de 
forma clara a essas perguntas e a outras que possam ser feitas. 


É necessário termos em mente que a estatística é uma ferramenta para 
o gestor ou para o executivo, nas respostas aos “porquês” de seus pro- 
blemas. Contudo, para que ela seja bem utilizada, é necessário conhecer 
os seus fundamentos e os seus princípios e, acima de tudo, que o gestor 
desenvolva um espírito crítico e de análise; pois é fácil mentir usando a 
estatística, difícil é falar a verdade sem usar a estatística. 


Atualmente, as empresas têm procurado admitir como gestores profis- 
sionais que possuam um alto nível de conhecimento de estatística, o que 
resulta em diferença significativa nos processos decisórios. 


Para estudar na modalidade a distância o conteúdo da disciplina Esta- 
tística Aplicada à Administração é preciso que você tenha disciplina in- 
telectual, a qual, para desenvolver, somente praticando; e, ainda, uma 
postura crítica, sistemática. Ou seja, ao invés de você atuar como um 
sujeito passivo e concordar com tudo o que diz o texto, você deve duvi- 
dar, contestar, criticar, comentar e descobrir o que o autor quer dizer. 
O ato de estudar exige que você faça exercícios e entenda o que está 
fazendo, não sendo apenas um mero executor de fórmulas. Isso implica 
o entendimento dos conceitos apresentados neste material. 


Uma vez que a leitura é uma atividade, você deve ser um sujeito ativo. 
Tenha certeza de que um estudante consegue aprender mais do que ou- 
tro à medida que se aplica mais e é capaz de uma atividade maior de 
leitura. E aprende melhor se exigir mais de si mesmo e do texto que tem 
diante de si. 


Para facilitar o seu estudo, dividimos o livro em seis Capítulos. No Ca- 
pítulo 1, você irá ver as fases do método estatístico e os conceitos de 
populações, de amostras e de métodos de amostragem. 


Nos Capítulos 2 e 3, você irá aprender a descrever um conjunto de dados 
por meio de distribuições de frequências, de medidas de posição e de 
dispersão. Já nos Capítulos 4 e 5, você irá conhecer e estudar conceitos 
relacionados a probabilidades, a distribuições discretas e contínuas, além 
de noções de estimação. E, por fim, no último Capítulo, você irá apren- 
der como tomar decisões baseadas nos chamados testes de hipóteses. 


Desejamos a você bons estudos! 


Professor 
Marcelo Tavares 


CAPÍTULO | 


FASES DO MÉTODO ESTATÍSTICO, 
POPULAÇÃO E AMOSTRA 


Prof. Marcelo Tavares 


Objetivos Específicos de Aprendizagem 
Ao finalizar este Capítulo, você deverá ser capaz de: 


* Entender as relações entre as fases do método estatístico e aplicálas 
no desenvolvimento de seus projetos; 


* Compreender conceitos básicos relacionados à estatística, como vari- 
áveis, estimadores, estimativas, parâmetros, população, amostras; e 


* Entender os diversos tipos de amostragem e saber como aplicá-los 
quando for desenvolver qualquer tipo de projeto em que sejam utili- 
zados planos amostrais. 


Fases do Método Estatístico 


Caro estudante, 

Vamos iniciar nossos estudos de estatística para que você tenha condições de 
identificar a forma pela qual podemos utilizá-la, seja dentro da pesquisa científi- 
ca ou na estruturação de projetos, ou na tomada de decisões. 


Além disso, trabalharemos as definições de população e de amostra, bem como 
a forma de retirar as amostras de uma população; temas de fundamental impor- 
tância para que você consiga desenvolver trabalhos com resultados de campo 
de alto nível. 


Na preparação e execução de um projeto, torna-se necessário conhecer as fases 
do método estatístico, bem como a forma pela qual os elementos serão sortea- 
dos para compor a amostra. Um bom exemplo é a definição do perfil das pes- 
soas a serem atendidas em um hospital público. Após a leitura deste Capítulo, 
você terá condições de identificar esses itens no exemplo citado. 


Vamos então aprender esses assuntos? Boa leitura e, qualquer dúvida, não hesi- 
te em consultar o seu tutor. 


Para realizarmos um estudo estatístico, normalmente, existem várias eta- 
pas a serem realizadas, as chamadas fases do método estatístico. Quan- 
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do você tiver bem definidas essas fases, e tiver condições de realizá-las 
de forma adequada, a chance de sucesso em um trabalho estatístico ou 
que envolva estatística será muito maior. Para isso, então, você irá co- 
nhecer tais fases ou etapas de forma mais detalhada. 


As fases do método estatístico são: 


* definição do problema; 

* planejamento do processo de resolução; 
* coleta dos dados; 

* organização e apresentação dos dados; 
* análise e interpretação dos resultados. 


Agora, você verá de forma minuciosa cada uma dessas fases. Ao longo 
da apresentação, iremos detalhando-as, inserindo-as passo a passo, para 
que ao final você tenha uma ideia das relações entre elas. 


Definição do Problema 


A primeira fase consiste na definição e na formulação correta do proble- 
ma a ser estudado. Para isso, você deve procurar outros estudos realiza- 
dos sobre o tema escolhido, pois, assim, evitará cometer erros que ou- 
tros já cometeram. Para exemplificar esta fase, podemos considerar um 
estudo para prever os resultados das eleições governamentais antes da 
votação. Neste caso o problema consiste em determinar os percentuais 
de cada candidato com uma certa margem de erro. 


Essa primeira fase pode responder à definição de um problema ou, sim- 
plesmente, dar resposta a um interesse de profissionais. Em alguns ca- 
sos, podem estar envolvidas variáveis qualitativas e quantitativas, por 
exemplo: 


SAIBA MAIS 


Veremos esses conceitos mais adiante neste Capítulo. 


* a receita do Imposto Territorial e Predial Urbano (IPTU) de cada um 
dos bairros de uma cidade em vários anos; 


* medidas de desempenho dos funcionários de um setor de uma pre- 
feitura ao longo de alguns meses; 


* a quantidade de residências em uma cidade que atrasam o pagamen- 
to do IPTU em 1,2,3, 4, 5 ou mais meses; e 


* o tempo necessário entre o pedido de reparo de uma via pública e a 
realização do serviço. 


Mas não para por aí! Existem outros problemas relacionados à gestão 
pública que merecem ser resolvidos. 


Definição do problema 


Planejamento da Pesquisa 


Após você definir o problema, é preciso determinar um processo para 
resolvê-lo e, em especial, a forma de como obter informações sobre a 
variável ou as variáveis em estudo. É nessa fase que deve decidir pela 
observação da população ou de uma amostra. Portanto, você precisa: 


* determinar os procedimentos necessários para resolver o problema, 
em especial, como levantar informações sobre o assunto objeto do 
estudo; 


* | planejar o trabalho tendo em vista o objetivo a ser atingido; 
* escolher e formular corretamente as perguntas; 
* definir o tipo de levantamento — censitário ou por amostragem; e 


* definir o cronograma de atividades, os custos envolvidos, o delinea- 
mento da amostra etc. 


Considerando o exemplo das previsões eleitorais, nesta fase de planeja- 
mento, devemos definir pontos importantes como as perguntas a serem 
incluídas num questionário de intenção de voto, o procedimento de apli- 
cação do questionário, ou seja, de coleta de dados, o tipo e tamanho da 
amostra de eleitores a serem entrevistados, bem como o procedimento 
de projeção dos resultados a partir das opiniões coletadas. 


Definição do problema 


Planejamento da pesquisa 
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Coleta dos Dados 


Agora que você já planejou o seu trabalho, vamos para a terceira etapa, 
que consiste na coleta de dados. Essa fase deve ser seguida com cuidado, 
pois dados mal coletados resultam em estatísticas inadequadas ou que 
não refletem a situação que você deseja estudar. 


Os dados podem ser coletados, por exemplo, por meio de: 


* questionário; 

* observação; 

* experimentação; e 

* pesquisa bibliográfica. 


A coleta de dados que você vai fazer pode ser realizada de forma dire- 
ta com base nos elementos de registros ou pelo próprio pesquisador 
através de questionários. Voltando ao exemplo das previsões eleitorais, 
nesta fase de coleta dos dados temos a aplicação de questionários, por 
exemplo, através de pesquisadores que farão as perguntas e registrarão 
as respostas de eleitores selecionados. 


Definição do problema 


Planejamento da pesquisa 


Coleta dos dados 


Organização e Apresentação dos Dados 


Agora que você já tem os dados precisa organizá-los e apresentálos, 
pois somente coleta-los dados não é suficiente. A organização e a apre- 
sentação consistem em “resumir” os dados através da sua contagem e 
agrupamento, por meio de estatísticas, gráficos e tabelas. Desse modo, 
obtemos um conjunto de informações que irão conduzir ao estudo do 
atributo estatístico*. Geralmente, essa organização é feita em planilhas 
eletrônicas (tipo Excel) para posterior tratamento estatístico*. Conside- 
rando a previsão das eleições, os dados coletados deverão ser contados e 
organizados em planilhas eletrônicas. Os votos indicados pelos eleitores 
entrevistados deverão ser contados e organizados em tabelas. 


SAIBA MAIS 


*Atributo estatístico - é toda medida estatística. Por exemplo: mé- 
dia. Fonte: Elaborado pelo autor deste livro. 


*Tratamento estatístico - implica analisar os dados utilizando técni- 
cas estatísticas. Fonte: Elaborado pelo autor deste livro. 


Definição do problema 


Planejamento da pesquisa 


Coleta dos dados 


Organização e apresentação 
dos dados 


Agora que você tem os dados organizados, precisa apresentá-los e, para 
tanto, existem duas formas que não se excluem mutuamente, a saber: 


* apresentação por tabelas; e 
* apresentação por gráficos. 


Essas formas permitem sintetizar uma grande quantidade de dados (nú- 
meros), tornando mais fácil a compreensão do atributo em estudo e uma 
futura análise. 


Definição do problema 


Planejamento da pesquisa 


Coleta dos dados 


Organização e apresentação 
dos dados 
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No Capítulo 2, ampliaremos nossa discussão quanto à forma de 
apresentação dos dados, ou seja, detalharemos como montar essas ta- 
belas de distribuição de frequências e quais os tipos de gráficos mais 
adequados para cada situação que você venha a ter. 


Análise e Interpretação de Dados 


Nesta etapa, você irá calcular novos números com médias* embasadas 
nos dados coletados. Esses novos números permitem fazer uma descri- 
ção do fenômeno em estudo, evidenciando algumas das suas caracte- 
rísticas particulares. Nessa fase, ainda é possível, por vezes, “arriscar” 
alguma generalização, a qual envolverá sempre algum grau de incerteza. 


SAIBA MAIS 


*Médias - são os resultados obtidos por meio da soma de todos os 
valores, divididos pela quantidade de ítens que você somou. 
Fonte: Elaborado pelo autor deste livro. 


Você irá aprender no Capítulo 5 a quantificar esse grau de incerteza. 


Na análise e na interpretação dos dados, você precisa, ainda, estar mui- 
to atento ao significado das medidas estudadas por exemplo, média e 
moda* e ao porquê de as utilizarmos. Para verificar as relações entre es- 
sas medidas, você deve estar de mente aberta; e, para tanto, é necessário 
que conheça a estrutura e o cálculo dessas medidas. 


SAIBA MAIS 


*Moda - valor que mais se repete em um conjunto de observações. 
Fonte: Elaborado pelo autor deste livro. 


Imagine que você esteja envolvido em um estabelecimento de conjectu- 
ras e na comunicação da informação de uma forma convincente através 
da elaboração de relatórios, de textos e de artigos que incluam, por exem- 
plo, gráficos e tabelas. As pessoas que se utilizam da estatística como 
ferramenta devem ser sensibilizadas para perceberem a influência que 
poderá ter o modo de apresentação da informação na comunicação de 
resultados, a utilização de diferentes gráficos e/ou de diferentes escalas. 


No exemplo da pesquisa eleitoral, aplicam-se fórmulas para calcular os 
intervalos de confiança dos resultados projetados para os candidatos, ou 
seja, seu percentual de votos esperados, associados a uma margem de 
erro prevista. A forma de calcular esses intervalos de confiança, você irá 
aprender no Capítulo 5. 


Para compreender a nossa conversa, analise a Figura 1, que apresenta 
um resumo de todas essas fases: 


Definição do problema 


Planejamento da pesquisa 


Coleta dos dados 


Organização e apresentação 
dos dados 


Análise e interpretação dos dados 


Comunicação dos resultados 


Figura 1: Fases do método estatístico 
Fonte: Elaborada pelo autor deste livro 


Por fim, é importante destacarmos que para a realização dessa fase de 
análise é necessário que você tenha o domínio da utilização de planilhas 
tipo Excel e de softwares estatísticos. Na fase final de “Comunicação dos 
Resultados”, as projeções de votos de candidatos são apresentadas na 
forma de tabela ou gráfico, os quais serão estudados no próximo Capítulo. 


Se diversas amostras são coletadas ao longo do tempo, pode ser apre- 
sentado um gráfico demonstrando a evolução temporal das previsões de 
votos por candidato. 


População e Amostras 


Antes, você precisa entender o que é uma população e o que é uma 
amostra. Se considerarmos somente os habitantes de uma cidade que 
contribuem com o pagamento do IPTU (apenas as pessoas de cada do- 
micílio as quais tem o imóvel registrado em seu nome), essas pessoas 
constituem a população, pois apresentam características em comum, 
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nesse caso, O fato de que elas estão na mesma cidade e contribuem, 
todas, com o imposto do IPTU. 


Suponha, todavia, que você queira trabalhar com apenas uma parte des- 
sa população, ou seja, uma porção ou fração da população dos elemen- 
tos que a integram. 


Nessa população, geralmente, você poderá medir uma variável, por 
exemplo, a renda dessas pessoas. Assim, você poderá querer calcular a 
renda média da população de pessoas que contribuem com o IPTU (mé- 
dia populacional (1) que corresponde, geralmente, a um valor desconhe- 
cido chamado de parâmetro). Você deve lembrar-se sempre de que essas 
medidas numéricas de uma população são convencionalmente represen- 
tadas por letras gregas, como apresentado na frase anterior. Como você 
normalmente não vai medir toda a população, pode obter uma amostra 
que a represente. Estudando a amostra, você terá condições de calcular a 
média amostral (x) que corresponde ao estimador, e o resultado obtido 
(valor numérico) corresponderá à estimativa. Para entender melhor essa 
relação, observe a Figura 2. 


População Amostra 
n=? j x = R$587,00 


Figura 2: Relações entre estimadores, parâmetros e estimativa 
Fonte: Elaborada pelo autor deste livro 


Para você entender melhor essa figura, verifique que u (média popula- 
cional) e o (desvio padrão populacional) correspondem aos parâmetros 
(população), que x corresponde ao estimador (amostra) e que R$ 587,00 
corresponde à estimativa da renda média populacional (aproximação nu- 
mérica do valor da população). 


Portanto, quando você está estudando uma população inteira (censo) 
ou realizando uma amostragem, a classificação da variável que está tra- 
balhando será muito importante. Em relação à sua natureza, as variá- 
veis podem ser classificadas como: qualitativas (ordinais ou nominais) 
e quantitativas (discretas ou contínuas). Essa classificação permitirá, por 
exemplo, que você defina, posteriormente, o tipo de teste estatístico a 
ser utilizado ou o tipo de distribuição de probabilidade que necessitará 
aplicar para a variável em questão. 


Sendo assim, você precisa entender a classificação das variáveis. Então, 
mãos à obra! Eis a classificação: 


Nível de Mensuração 


Variável qualitativa: faz referência a observações relacionadas a atri- 
butos que não apresentam estrutura numérica, como cor dos olhos, 
classe social, estado civil, nome da empresa etc. Essa variável quali- 
tativa pode ser classificada em: 


* Nominal: quando as observações não apresentam nenhuma hie- 
rarquia ou ordenamento, como o sexo dos funcionários de uma 
prefeitura, número do CPF ou de identidade, estado civil, natura- 
lidade etc. 


* Ordinal: quando as observações apresentam uma hierarquia ou 
um ordenamento, por exemplo, cargo do funcionário de uma em- 
presa (diretor, gerente, supervisor etc.); posição das empresas em 
relação ao nível de faturamento (primeira, segunda, terceira etc.). 


Nível de Mensuração 


Qualitativas: suas 
realizações são atributos 
dos elementos pesquisados. 


Nominais: apenas Ordinais: é 
identificar as possível ordenar 
categorias. as categorias. 


sexo, naturalidade classe social 


Variável quantitativa: está relacionada às observações que apresen- 
tam uma estrutura numérica associada a contagens ou a mensura- 
ções, como quantidade de energia elétrica consumida por uma pre- 
feitura em um mês; número de pessoas atendidas por hora em um 
determinado setor público etc. Essa variável quantitativa pode ser 
classificada em: 


e Discreta: observações de estrutura numérica estão associadas a 
valores fixos, ou seja, na maioria dos casos, números inteiros e 
positivos associados a contagens, como o número de pessoas 
que pagam seus impostos em dia, número de pessoas residentes 
em uma cidade, etc. 


e Contínua: são todas as observações que representam valores nu- 
méricos que podem assumir qualquer valor dentro de um interva- 
lo, ou seja, correspondem a números reais, por exemplo, o tempo 
que pessoas ficam na fila aguardando para serem atendidas; peso 
dos funcionários de uma prefeitura etc. 
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Para melhor visualizar essa classificação das variáveis, observe a Figura 3. 


Nível de Mensuração 


Qualitativas: suas 
realizações são atributos 
dos elementos pesquisados. 


Quantitativas (intervalares): 
suas realizações são 
números resultantes de 
contagem ou mensuração. 


Nominais: apenas Ordinais: é 
identificar as possível ordenar Discretas: podem Contínuas: 
categorias. as categorias. assumir apenas podem assumir 
alguns valores. infinitos valores. 


sexo, naturalidade classe social 


número de filhos temperatura, velocidade 


Figura 3: Classificação das variáveis 
Fonte: Elaborada pelo autor deste livro 


Agora que você já conhece e compreendeu a classificação das variáveis, 
vamos voltar à relação entre amostragens e populações. A amostragem 
é a seleção de elementos de uma população, de modo que sejam repre- 
sentativos desta. Refere-se também ao tipo e processo de obtenção das 
amostras. 


As principais vantagens da utilização do estudo por amostras represen- 
tativas* em relação ao censo* são: 


SAIBA MAIS 


*Amostras representativas - são as amostras que mantêm as carac- 
terísticas da população de onde ela foi retirada. Fonte: Elaborado 
pelo autor deste livro. 


*Censo - avaliação de todos os elementos da população. Fonte: Ela- 
borado pelo autor deste livro. 


* Ocorre uma redução no custo, pois sendo os dados obtidos apenas 
de uma fração da população, as despesas são menores do que as 
oriundas de um censo. Tratando-se de grandes populações, podemos 
obter resultados suficientemente precisos, para serem úteis, de amos- 
tras que representam apenas uma pequena fração da população. 


* Na prática ou no dia a dia das organizações, é necessário que os re- 
sultados sejam obtidos com a maior rapidez possível. Portanto, com 
a amostragem, você pode apurar os dados e sintetizá-los mais rapida- 
mente do que em uma análise de todos os elementos populacionais. 
Esse é um fator primordial quando se necessita urgentemente das 
informações. Se o resultado de uma pesquisa for conhecido muito 
tempo depois, é bem possível que a situação que você pretendia re- 


solver seja, no momento da apresentação, completamente diferente 
da que existia no momento da coleta dos dados. 


* Outra vantagem corresponde a maior amplitude e flexibilidade. Em 
certos tipos de investigação, como ocorre em pesquisas de mercado, 
temos que utilizar pessoal bem treinado e equipamento de alta tec- 
nologia, cuja disponibilidade é limitada para a obtenção de dados. O 
censo tornase impraticável e resta a escolha de obter as informações 
por meio de amostras. Portanto, com número reduzido de entrevis- 
tadores, por exemplo, o treinamento a ser aplicado a eles tende a ser 
de qualidade muito maior do que se fosse aplicado a um grupo maior. 


* A última vantagem a ser citada aqui é a maior exatidão dos resulta- 
dos. Em virtude de se poder empregar pessoal de melhor qualidade e 
mais treinado, e por se tornar exequível a supervisão mais cuidadosa 
do campo de trabalho e do processamento de dados, favorecendo à 
redução no volume de trabalho, uma amostragem “pode”, na reali- 
dade, proporcionar melhores resultados do que o censo. 


Dessa forma, podemos dizer que as amostras a serem trabalhadas devem 
apresentar uma característica importante: a representatividade. Para 
que as conclusões da teoria de amostragem sejam válidas, as amostras 
devem ser escolhidas de modo a serem representativas da população. 


Antes de darmos continuidade, reflita: como você faria para retirar uma 
amostra de 300 pessoas que estão em um cadastro de prefeitura que 
tem 60.000 pessoas? Essa amostra seria representativa da população? 


Uma vez que você tenha decidido realizar a pesquisa selecionando uma 
amostra da população, é preciso elaborar o plano de amostragem* que 
consiste em definir as unidades amostrais*, a maneira pela qual a amos- 
tra será retirada (o tipo de amostragem), e o próprio tamanho da amostra. 


SAIBA MAIS 


*Plano de amostragem - plano de como será feita a retirada da 
amostra da população. Fonte: Elaborado pelo autor deste livro. 


*Unidades amostrais - correspondem às unidades selecionadas. 
Fonte: Elaborado pelo autor deste livro. 


Essas unidades amostrais podem corresponder aos próprios elementos 
da população, quando há acesso direto a eles ou qualquer outra unidade 
que possibilite chegar até eles. Você pode considerar como população 
os domicílios de uma cidade da qual se deseja avaliar o perfil socioe- 
conômico. A unidade amostral será cada um dos domicílios, que cor- 
responderá aos elementos da população. Caso a unidade amostral seja 
definida como os quarteirões, a unidade amostral não corresponderá aos 
elementos populacionais. 
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Temos dois tipos principais de amostragem: as probabilísticas e as não 
probabilísticas. Vejamos: 


* Amostragem probabilística: ocorre quando todos os elementos da 
população tiverem uma probabilidade ou a chance conhecida e di- 
ferente de zero de pertencer à amostra. Por exemplo, imagine que 
temos 50 funcionários de uma prefeitura em uma atividade de treina- 
mento e você deve selecionar 10 funcionários. Na amostragem pro- 
babilística, você deverá sortear 10 indivíduos da lista de 50 funcioná- 
rios. A realização desse tipo de amostragem somente é possível se a 
população for finita e totalmente acessível. 
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* Amostragem não probabilística: é assim denominada sempre que 
não conhecemos a probabilidade ou a chance de um elemento da 
população pertencer à amostra. Por exemplo, quando somos obriga- 
dos a colher a amostra na parte da população a que temos acesso, os 
elementos da população a que não temos acesso não têm chance de 
serem sorteados para compor a amostra. No caso anterior da esco- 
lha de 10 entre 50 funcionários, uma amostragem não probabilística 
seria, por exemplo, a escolha de nomes conforme o julgamento de 
mérito e não por sorteio. 


Amostragem não Probabilística 


Você pode intuir que, no geral, a utilização de uma amostra probabilísti- 
ca é melhor para garantir a representatividade da amostra, pois o acaso 
seria o único responsável por eventuais discrepâncias entre população e 
amostra. Essas discrepâncias são levadas em consideração nas inferên- 
cias estatísticas e cálculos de possíveis margens de erro de previsão. 


Vamos, então, detalhar os tipos de amostragens probabilísticas. 


Amostragens Probabilísticas 


Como já dito, essa amostragem é caracterizada pela chance conhecida 
de mensurarmos uma amostra. Os principais métodos de amostragem 
são: aleatória (casual) simples, sistemática, estratificada e conglomera- 
do. Veja a seguir a descrição de cada uma delas. 


Amostragem Aleatória (Casual) Simples 


Devemos utilizar a Amostragem Aleatória Simples (AAS) somente quan- 
do a população for homogênea em relação à variável que se deseja es- 
tudar. Geralmente, atribuímos uma numeração a cada indivíduo da po- 
pulação e, através de um sorteio com reposição, os elementos que irão 
compor a amostra são selecionados. Todos os elementos da população 
têm a mesma probabilidade de pertencer à amostra e as extrações dos n 
elementos são independentes. É importante que você se atenha ao fato 
de que no caso de populações pequenas e em que não há reposição, a 
condição de independência não é satisfeita. A amostra resultante tem 
maior valor, porém é necessário um ajuste no cálculo do erro-padrão da 
média amostral. 


Imagine que você queira amostrar um número de pessoas que estão 
fazendo um determinado concurso com N = 10.000 inscritos. Como a 
população é finita, devemos enumerar cada um dos N candidatos e sor- 
tear n = 1.000 deles. 


Amostragem Probabilística 


Aleatória Simples | 


Amostragem Sistemática 


Em algumas situações, como amostrar pessoas que ficam em uma fila, é 
conveniente retirar da população os elementos que irão compor a amos- 
tra de forma cíclica (em períodos), por exemplo, quando os elementos 
da população se apresentam ordenados. Porém, é de fundamental im- 
portância que a variável de interesse não apresente ciclos de variação 
coincidentes com os ciclos de retirada, pois esse fato tornará a amostra- 
gem não representativa. Essa técnica de amostragem é o que denomina- 
mos de amostragem sistemática. 


Para entender melhor, vamos imaginar que você queira retirar uma amos- 
tra dos currículos apresentados pelos candidatos em um processo seleti- 
vo, e a variável de interesse corresponde à idade deles. Pode ocorrer que 
pessoas de uma determinada faixa etária deixem para entregar o currícu- 
lo no último dia. Então, se pegássemos de forma aleatória, poderíamos 
estar subestimando ou superestimando a idade média. Nessa situação, 
foram recebidos 500 currículos ordenados por ordem de entrega. Con- 
siderando que amostrar 50 currículos é o suficiente para estimar a idade 
média dos candidatos, utilizamos a técnica de amostragem sistemática, 
pois pode ocorrer que um grupo de pessoas da mesma faixa etária tenha 
feito a inscrição em grupo e, assim, na ordem de inscrição, teremos di- 
versas pessoas com a mesma idade. Devemos considerar então que as 
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idades estejam aleatoriamente distribuídas na população, levando em 
conta a ordem de chegada, ou seja, sem qualquer ciclo de repetição ou 
padrão relacionado à ordem de entrega dos currículos. 


Para tanto, é necessário, antes, que enumeremos a população de 1 a 500 
e calcularemos uma constante (K) que servirá como fator de ciclo para a 
retirada dos currículos amostrados. Assim, podemos dividir os 500 cur- 
rículos pelo tamanho da amostra (50) que desejamos trabalhar e, então, 
teremos uma constante igual a 10 e os elementos serão amostrados a 
cada 10 elementos. Generalizando, teremos que a constante (K) será 
dada por K= N/n, em que N é o tamanho da população e n o tamanho 
da amostra. 


Após a definição do valor de K, fazemos o sorteio de um ponto inicial 
da amostragem (PIA), ou seja, um dos elementos do primeiro intervalo 
constituído pelos elementos populacionais numerados de 1 até 10. Na 
sequência, devemos escolher o próximo que será o elemento de ordem 
(i + K), e assim por diante, sempre somando K à ordem do elemento 
anterior até completar a escolha dos n elementos que irão compor a 
amostra. Um esquema é apresentado na Figura 4 no caso em que K = 5. 


k=5 3+5=8 8+5 =13 13+5 =18 


Figura 4: Exemplo de amostra sistemática 
Fonte: Elaborada pelo autor deste livro 


Para fixar os conceitos de amostragem sistemática, vamos fazer, juntos, 
um esquema de amostragem para saber a opinião dos usuários de um 
banco em relação ao tempo de atendimento. 


Imagine um Banco X com uma listagem de 33.400 clientes em uma de- 
terminada cidade. A pesquisa será feita por telefone, utilizando uma 
estrutura de call center. Desejando-se que a pesquisa seja realizada 

com uma amostra de 300 clientes, como seria organizada a 
amostragem sistemática? 


Antes, você deve dividir o número total de clientes, 33.400, por 300, que 
é o tamanho da amostra. 


R=eN=35400=11133 
n 300 


Como encontramos um valor com casas decimais, então, você irá utilizar 
um K de aproximadamente 111. 


Agora, do primeiro cliente da lista até o de numero 111, você irá sortear 
um número. Vamos considerar que sorteou o cliente número 10. 


Logo, esse será o primeiro elemento da amostra. 


O próximo elemento da amostra será dado pela soma do primeiro sorte- 
ado (10º cliente) ao valor de K (111). 


Então, o próximo cliente sorteado será o 121º cliente (10 + 111). 


Para o sorteio do próximo cliente que irá compor a amostra, teremos o 
121º cliente mais o valor de K = 111, ou seja, o 232º cliente. 


E, desse modo, você continua até que obtenha todos os elementos da 
amostra (n = 300 clientes). 


Amostragem Probabilística 
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Amostragem Estratificada 


Quando a variável de interesse apresenta uma heterogeneidade na po- 
pulação e essa heterogeneidade permite a identificação de grupos homo- 
gêneos, você pode dividir a população em grupos (estratos) e fazer uma 
amostragem dentro de cada um deles, garantindo, assim, a representati- 
vidade de cada estrato na amostra. 


Podemos verificar que pesquisas eleitorais apresentam uma grande hete- 
rogeneidade em relação à intenção de votos quando consideramos, por 
exemplo, a faixa salarial ou o nível de escolaridade. Então, se fizéssemos 
uma AAS, poderíamos incluir na amostra uma maior quantidade de ele- 
mentos de um grupo, embora, proporcionalmente, esse grupo seja pe- 
queno em relação à população. Dessa forma, não teríamos uma amostra 
representativa da população a ser estudada. Portanto, podemos dividir a 
população em grupos (estratos) que são homogêneos para a característi- 
ca que estamos avaliando, ou seja, nesse caso a intenção de votos. 


Como estamos dividindo a população em estratos (grupos) que são 
homogêneos dentro de si, podemos caracterizar a amostragem estra- 
tificada. Para efetuarmos esta amostragem de forma proporcional, pre- 
cisamos, primeiramente, definir a proporção do estrato em relação à 
população. 


A proporção do estrato h será igual ao número de elementos nele pre- 
sentes (N,) dividido pelo total da população (N) D (N,/N). 
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POPULAÇÃO AAS de ng 
elementos 


nat ng+ nç+ np 


Na+ Np+ Nec + Np =N 
Figura 5: População dividida em estratos 
Fonte: Elaborada pelo autor deste livro 


Após você obter essa proporção do estrato em relação à população, deve 
multiplicar o tamanho total da amostra (n) pela proporção de cada estra- 
to na população (N,/N). 


Dessa maneira, teremos um tamanho de amostra em cada estrato pro- 
porcional ao tamanho do estrato em relação à população. A Figura 5 
mostra uma população dividida em estratos (grupos) e como é feita a es- 
colha dos elementos de cada um deles (A, B, C, D). Logo, dentro de cada 
um, você pode fazer amostragem usando AAS devido aos estratos serem 
homogêneos individualmente, considerando a variável de interesse. 


Perceba que a quantidade de elementos que irá sortear dentro de cada 
estrato é proporcional ao tamanho de cada estrato na população, pois 
o desenho da amostra é o mesmo da população, porém menor, já que 
você irá pegar somente uma parte de cada estrato para compor a amos- 
tra final. 


Para você fixar melhor os conceitos de amostragem estratificada, vamos 
resolver juntos a seguinte questão: imagine que o governo federal deseja 
fazer uma pesquisa de satisfação das pessoas em relação a serviços pres- 
tados por prefeituras. Estudos anteriores mostram uma relação entre a 
satisfação das pessoas e o tamanho da cidade. A população a ser consi- 
derada diz respeito às cidades de um determinado estado. Essas cidades 
foram divididas em três grupos (estratos) levando em conta o seu tama- 
nho (pequena, média e de grande porte). Considere que vamos trabalhar 
com uma amostra de tamanho n = 200 cidades e, com as informações a 
seguir, faça o esquema de uma amostragem estratificada. 


ESTRATOS TAMANHO DO ESTRATO (Nº DE CIDADES) 


Calcule, antes, a proporção de cada estrato na população, dividindo o 
tamanho do estrato pelo tamanho da população (700+100+27 = 827). 


| TAMANHO DO ESTRATO a 
ESTRATOS E DE GRADES) PROPORÇÃO 


Pequeno porte Na: = 700 


A quantidade de cidades que será amostrada na população será dada por 
meio da proporção de cada estrato multiplicado pelo tamanho total da 
amostra (n=200), como é visto a seguir: 


TAMANHO 
ESTRATOS DO ESTRATO PROPORÇÃO 
(Nº DE CIDADES) 


Nº DE CIDADES AMOSTRADAS 
EM CADA ESTRATO 


Pequeno 
porte 


Então, na nossa amostra, teremos 170 cidades de porte pequeno, 24 de 
porte médio e 6 de grande porte. 
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Amostragem por Conglomerados 


Apesar de a amostragem estratificada apresentar resultados satisfatórios, 
a sua implementação é dificultada pela falta de informações sobre a po- 
pulação para fazer a estratificação. Para poder contornar esse problema, 
podemos trabalhar com o esquema de amostragem chamado amostra- 
gem por conglomerados. 


Os conglomerados são definidos em razão da experiência do gestor ou 
do pesquisador. Geralmente, podemos definir os conglomerados por fa- 
tores geográficos, como bairros e quarteirões. A utilização da amostra- 
gem por conglomerados possibilita uma redução significativa do custo 
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no processo de amostragem. Portanto, um conglomerado é um subgru- 
po da população que, individualmente, a reproduz. Esse tipo de amos- 
tragem é muito útil quando a população é grande, por exemplo, no caso 
de uma pesquisa em nível nacional. 


Você pode estar se perguntando: como realizar uma amostragem por 
conglomerados? 


Apesar de a amostragem por conglomerados, nesse tipo de amostragem, 
ser utilizada para uma população grande, é simples calculá-la. Primeira- 
mente, definimos o conglomerado e, assim, dividimos a população nele. 
Sorteamos os conglomerados por meio de um processo aleatório e ava- 
liamos todos os indivíduos presentes neles; isso é chamado de amos- 
tragem por conglomerados em um estágio. Caso façamos um sorteio 
de elementos dentro de cada conglomerado, teremos uma amostragem 
por conglomerados em dois estágios. Para entender melhor esse cálculo, 
observe a Figura 6, que mostra uma amostragem por conglomerados 
em um único estágio. Cada quadrado corresponde a uma residência. 
Analise. 


Seleção aleatória dos conglomerados 


88 088 8000 
[&) (&) 
[DI] 


Todos os indivíduos presentes no conglomerado são avaliados. 


Figura 6: Amostra por conglomerados 
Fonte: Elaborada pelo autor deste livro 


Um exemplo prático de utilização dessa amostra é a Pesquisa Nacional 
por Amostra de Domicílios (PNAD) do Instituto Brasileiro de Geografia 
e Estatística (IBGE), feita por conglomerados em três estágios. 
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SAIBA MAIS 


Para saber mais sobre essa pesquisa acesse <www.ibge.com.br>. 
Acesso em: 20 jan. 2014. 


O cálculo do tamanho amostral será visto em conjunto com a parte de 
intervalos de confiança, no Capítulo 5. 


Amostragem não Probabilística 


Quando trabalhamos com a amostragem não probabilística, não conhe- 
cemos a priori, isto é, com antecedência, a probabilidade que um ele- 
mento da população tem de pertencer à amostra. Nesse caso, não é 
possível calcular o erro decorrente da generalização dos resultados das 
análises estatísticas da amostra para a população de onde essa amostra 
foi retirada. Então, utilizamos geralmente a amostragem não probabilís- 
tica, por simplicidade ou por impossibilidade de se obter uma amostra 
probabilística como seria desejável. 


Os principais tipos de amostragem não probabilística que temos são: 
amostragem sem norma, ou a esmo; intencional; e por cotas. 


Amostragem a Esmo 


Imagine uma caixa com 1.000 parafusos. Enumerá-los ficaria muito difícil 
e a AAS tornar-se-ia inviável. Então, em situações desse tipo, supondo 
que a população de parafusos seja homogênea, escolhemos a esmo a 
quantidade relativa ao tamanho da amostra. Quanto mais homogênea for 
a população, mais podemos supor a equivalência com uma AAS. Dessa 
forma, os parafusos serão escolhidos para compor a amostra de um de- 
terminado tamanho sem nenhuma norma ou a esmo. Daí vem o nome 
desse tipo de amostragem. 


Amostragem não Probabilística 


Amostragem Intencional 


A amostragem intencional corresponde àquela em que o amostrador de- 
liberadamente escolhe certos elementos para pertencer à amostra por 
julgá-los bem representativos da população. 
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Um exemplo desse tipo de amostragem corresponde à situação em que 
desejamos saber a aceitação de uma nova marca de whisky a ser inserida 
no mercado de uma cidade. Somente entrarão para compor a amostra 
pessoas que façam uso da bebida e que tenham condições financeiras de 
comprar essa nova marca (classe social de maior poder aquisitivo). 


Amostragem não Probabilística 


Intencional 


Amostragem por Cotas 


Nesse tipo de amostragem, a população é dividida em grupos e, na se- 
quência, é determinada uma cota proporcional ao tamanho de cada gru- 
po. Entretanto, dentro de cada grupo não é feito sorteio, mas, sim, os 
elementos são procurados até que a cota de cada grupo seja cumprida; 
a escolha em vez do sorteio é o que difere a amostragem por cotas da 
amostragem estratificada. Por exemplo, suponha que numa população 
haja 53% de homens e 47% de mulheres. Numa amostra de 100 indiví- 
duos dessa população, por cotas de gênero, procuraríamos 53 homens 
e 47 mulheres. 


Encontramos esse tipo de amostra em pesquisas eleitorais quando a di- 
visão de uma população ocorre em grupos; considerando, por exemplo, 
o sexo, o nível de escolaridade, a faixa etária e a renda, que podem ser- 
vir de base para a definição dos grupos, partindo da suposição de que 
essas variáveis definem grupos com comportamentos diferenciados no 
processo eleitoral. 


SAIBA MAIS 


Para termos uma ideia do tamanho desses grupos, podemos recor- 
rer a pesquisas feitas anteriormente pelo IBGE. 


Amostragem não Probabilística 


= EEB 


Juntando todos os desenhos dos vários tipos de amostragem 
que fizemos, teremos, então, a Figura 7: 


Amostragem Probabilística 


Aleatória Simples | Sistemática 


Amostragem não Probabilística 


= 


TEXTO COMPLEMENTAR 


Lembre-se de que a construção do conhecimento é um processo que 
deve ser cíclico e renovado a cada dia; para tanto, procure descobrir 
mais acerca desse mundo estatístico seguindo esta orientação: 


* Programa estatístico Bioestat. Disponível em: <http://muw. 
mamiraua.org.br/downloads/programas>. Acesso em: 20 jan. 
2014. Esse programa permite que você realize os métodos de 
amostragem, apresentados aqui, computacionalmente. 


Resumindo 


Neste Capítulo, você conheceu conceitos básicos relacionados à estatí 
stica e aprendeu a retirar amostras de populações. Esses conceitos se- 
rão importantes para a compreensão de novas informações contidas nos 
próximos Capítulos. 


ATIVIDADES 


Depois de ter visto todos os conceitos das fases do método esta- 
tístico, a classificação de variáveis e os diferentes planos amostrais, 
resolva as atividades a seguir. Lembre-se de que as respostas de 
todas as atividades estão no final do livro. Em caso de dúvidas, você 
deve consultar seu tutor. 


1. Imagine a situação de um pesquisador que deseje estudar o uso 
semanal da internet por estudantes de uma escola do Ensino 
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Fundamental. Diferentes perguntas poderiam ser feitas. Leia os 
exemplos e classifique-os em variáveis qualitativa nominal ou 
ordinal e quantitativa discreta ou contínua. 


a) Você usa internet durante a semana? (sim ou não). 

b) Qual a intensidade de uso da internet durante a semana? 
(nenhuma, pequena, média ou grande). 

c) Quantas vezes você usa a internet durante a semana? 

d) Por quantas horas completas ou não você usa a internet du- 
rante a semana? 


Identifique o tipo de amostragem utilizada nas situações a 
seguir: 


a) Uma empresa seleciona a próxima pilha após cada 300 pi- 
lhas produzidas em sua linha de produção para a realização de 
testes de qualidade, a fim de conseguir vencer uma licitação 
pública. 


b) Um pesquisador de empresa aérea seleciona aleatoriamente 
dez voos para entrevistar todos os passageiros desses voos. 


c) Uma prefeitura testa uma nova estratégia de cobrança selecio- 
nando aleatoriamente 250 consumidores com renda inferior a R$ 
300,00 e 250 consumidores com renda de ao menos R$ 300,00. 


d) Um eleitor indeciso resolve escolher seu candidato da se- 
guinte forma: escreve o nome de cada um deles em cartões 
separados, mistura-os e extrai um nome, no qual irá votar. 


e) Um pesquisador ficou em um ponto de checagem da polícia 
(esquina), onde, a cada cinco carros que passavam, era feito um 
teste de bafômetro para checar a sobriedade dos motoristas. 


f) Em uma pesquisa com 1.000 pessoas, estas foram selecio- 
nadas usando-se como critério os números de seus telefones, 
gerados por computador. 


g) Uma prefeitura, para não perder uma fábrica montadora de 
carros, auxiliou em uma pesquisa na qual a montadora dividiu 
seus carros em cinco categorias: subcompacto, compacto, mé- 
dio, intermediário e grande; e está entrevistando 200 proprietá- 
rios de cada categoria para saber da satisfação desses clientes e, 
assim, ajudar a melhorar as vendas. 


h) Motivada pelo fato de um estudante ter morrido por excesso 
de bebida, a direção de uma universidade fez um estudo sobre 
o hábito de beber dos estudantes e, para isso, selecionou dez 
salas de aula e entrevistou os estudantes que lá estavam. 


CAPÍTULO II 


DISTRIBUIÇÕES DE FREQUÊNCIAS 
E REPRESENTAÇÃO GRÁFICA 


Prof. Marcelo Tavares 


Objetivos Específicos de Aprendizagem 
Ao finalizar este Capítulo, você deverá ser capaz de: 


* Descrever e apresentar os resultados de um conjunto de observações 
a partir de uma distribuição de frequências; 


* Compreender os tipos de gráficos existentes; 
* Utilizar os gráficos de forma adequada; e 


* Interpretar os resultados apresentados em um gráfico de forma clara, 
objetiva e passando o máximo de informações possíveis. 


Distribuições de Frequências 


Caro estudante, 

Vamos dar início ao segundo Capítulo de nossa disciplina e, nela, você encontra- 
rá conceitos relacionados à distribuição de frequências e à representação gráfica 
que lhe permitirão sintetizar uma grande quantidade de dados em tabelas e em 
gráficos representativos. 


Quando coletamos informações, sejam de populações ou de amostras, como 
vimos no Capítulo anterior, geralmente trabalhamos com uma quantidade gran- 
de de observações. Mas, como vamos apresentar esses resultados? Precisamos, 
então, aprender como sintetizar esses dados e colocá-los de modo que as pes- 
soas possam entender as informações obtidas. 


Uma forma de fazermos isso é utilizando distribuições de frequências e análises 
gráficas, as quais aprenderemos a partir de agora, já que entraremos no mundo 
da estatística, que se preocupa com a forma de apresentação dos dados. Vamos 
começar? 


Quando coletamos os dados para uma pesquisa, as observações reali- 
zadas são chamadas de dados brutos*. Um exemplo de dados brutos 
corresponde ao percentual dos trabalhadores que contribuíram com o 
Instituto Nacional de Seguro Social (INSS) em 20 cidades de uma deter- 
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minada região do Brasil no ano de 2008 (dados simulados pelo autor a 
partir de um caso real). Os dados são apresentados na Tabela 1 na forma 
em que foram coletados; e por esse motivo são denominados dados bru- 
tos. Geralmente, esse tipo de dado traz pouca ou nenhuma informação 
ao leitor, sendo necessário organizá-lo, com o intuito de aumentar sua 
capacidade de informação. 


SAIBA MAIS 


*Dados brutos - dados na forma em que foram coletados, sem ne- 
nhum tratamento. Fonte: Elaborado pelo autor deste livro. 


Tabela 1: Percentual dos trabalhadores que contribuíram para o INSS em 
20 cidades de uma determinada região do Brasil no ano de 2008 


45 
50 
2 
4 
52 


51 50 58 
44 46 57 
41 60 58 
50 54 60 
46 52 51 


Fonte: Elaborada pelo autor deste livro 


Se fizermos uma ordenação desse conjunto de dados brutos (do menor 
para o maior, em colunas da esquerda para a direita), teremos dados 
elaborados como mostra a Tabela 2. 


Tabela 2: Percentual ordenado dos trabalhadores que contribuíram para o INSS em 


20 


41 
41 
42 
44 
45 


cidades de uma determinada região do Brasil, no ano de 2008 
46 51 57 
46 54 58 
50 52 58 
50 52 60 
50 54 60 


Fonte: Elaborada pelo autor deste livro 


Com base nessa tabela, podemos observar que a simples organização 
dos dados em um rol* aumenta muito o nível de informação destes. Na 
Tabela 2, você pode verificar ainda que o menor percentual foi 41% e o 
maior 60%, o que nos fornece uma amplitude total* da ordem de 19%. 


SAIBA MAIS 


*Rol - dados classificados em forma crescente ou decrescente. Fon- 
te: Elaborado pelo autor deste livro. 


*Amplitude total - diferença entre o maior e o menor valor observa- 
do. Fonte: Elaborado pelo autor deste livro. 


Outra informação que podemos obter dos dados por meio da Tabela 2 
(organizada em rol crescente) é que nas cidades avaliadas, o valor 50, 
correspondente à percentagem de trabalhadores que contribuíram para 
o INSS, ocorre com maior frequência, ou seja, é o que mais se repete. 


Com base em nossa discussão, reflita: como organizar os dados de 
uma variável quantitativa contínua de forma mais eficiente, na qual se 
possa apresentar uma quantidade maior de informações? A resposta 
a essa pergunta será apresentada na próxima seção. Fique atento e, 
em caso de dúvidas, lembre-se de que você não está sozinho, basta 
solicitar o auxílio de seu tutor. 


Distribuição de Frequências de uma 
Variável Quantitativa Contínua 


Uma maneira de organizar os dados de uma variável quantitativa contí- 
nua (por exemplo, medidas de comprimento de uma amostra de 500 pe- 
ças), tal que você possa melhor representá-la, é a tabela de distribuição 
de frequências, isto é, a tabela em que são apresentadas as frequências 
de cada uma das classes. 


Distribuindo os dados observados em classes* e contando o número de 
observações contidas em cada classe, obtemos a frequência de classe. 
A disposição tabular dos dados agrupados em classes, juntamente com 
as frequências correspondentes, é o que denominamos de distribuição 
de frequência. 


SAIBA MAIS 


*Classes - intervalos nos quais os valores da variável analisada são 
agrupados. Fonte: Elaborado pelo autor deste livro. 


Sendo assim, para identificarmos uma classe, devemos conhecer os va- 
lores dos limites inferior e superior da classe que delimitam o intervalo 
de classe. 


Você pode estar se perguntando: como se constituem esses intervalos? 
Vimos, no início do curso, os tipos de intervalos no Capítulo 1 da dis- 
ciplina Matemática Básica. Vamos relembrar rapidamente como é essa 


classificação dos intervalos: 


* Intervalos abertos: os limites da classe (inferior e superior) não per- 
tencem a mesma. 


* Intervalos fechados: os limites da classe (superior e inferior) perten- 
cem à classe em questão. 


* | Intervalos mistos: um dos limites pertence à classe e o outro não. 


L 


CAPITULO 2 


L 


CAPITULO 2 


34 


Você pode utilizar qualquer um deles. Porém, o intervalo mais utilizado 
e que usaremos como padrão na resolução dos problemas, é o intervalo 
misto, o qual é apresentado da seguinte forma: 


43,09 H 48,9 


(o 43,5 está incluído e o 48,5 não está incluído no intervalo) 


Esses valores de 43,5 e 48,5 foram escolhidos aleatoriamente, somente 
para demonstrar o formato do intervalo. 


Para você entender melhor, acompanhe o exemplo a seguir, a partir dos 
dados da porcentagem de trabalhadores que contribuíram para o INSS. 
Com esses dados iremos construir uma distribuição de frequência e, ao 
longo desse exemplo, identificar, também, os conceitos presentes nessa 
distribuição. 


Para darmos início a esse entendimento, é importante, antes, conside- 
rarmos que existem diversos critérios para a construção das classes das 
distribuições de frequências apresentados na literatura. No nosso caso, 
utilizaremos os critérios apresentados a seguir. 


Para elaborar uma distribuição de frequência é necessário, inicialmente, 
determinar o número de classes (k) em que os dados serão agrupados. 
Por questões de ordem prática e estética, sugerimos utilizar de 5 a 20 
classes. O número de classes (k) a ser utilizado pode ser calculado em 
função do número de observações (n), conforme é mostrado para você 
a seguir: 


= vn, para n < 100 


O log n, para n> 100 


Retomemos o exemplo dos percentuais de trabalhadores que contribuí- 
ram para o INSS (Tabelas 1 e 2). 


Considerando que nessa pesquisa n = 20 percentuais de trabalhadores 
que contribuem como INSS em 20 cidades, temos, então, o número de 
classes definido por k = vn = 20 = 4,47. Como o número de classes é 
inteiro, usaremos 5 classes. O arredondamento utilizado nesse material 
é o padrão de algarismos significativos (como foi aprendido no segundo 
grau). O número de classes pode também ser definido de uma forma 
arbitrária, sem o uso dessa regra. 


Após determinarmos o número de classes (k) em que os dados serão 
agrupados, determinamos a amplitude do intervalo de classe (c). E, para 
calcularmos essa amplitude, vamos, primeiramente, calcular a amplitu- 
de total dos dados (A), que corresponde à diferença entre o maior valor 
e o menor valor observados. 


No nosso caso (usando dados da Tabela 2), teremos A = 60 - 41 =19%. 


Com base nesse valor da amplitude total (A) calculado iremos obter a 
amplitude do intervalo de classe (c), como é mostrado a seguir: 


Onde: 

c = amplitude de classe; 
A= amplitude total; e 

k = número de classes. 


Substituindo os valores já encontrados nessa expressão e considerando 
o caso do exemplo que estamos resolvendo, teremos: 


c="D=4,1525% 
5-1 


Mas atenção: existem outros procedimentos para a determinação da am- 
plitude do intervalo de classe que podem ser encontrados na literatura. 


Conhecida a amplitude de classes, devemos determinar os intervalos de 
classe. O limite inferior e superior das classes deve ser escolhido de 
modo que o menor valor observado esteja localizado no ponto médio 
(PM) da primeira classe. O ponto médio da classe corresponde à soma 
dos limites inferior e superior dividida por dois. 


Partindo desse raciocínio, o limite inferior da primeira classe será: 


Limite inf. 1º classe = menor valor - c 
2 
No nosso caso, substituindo os valores que encontramos anteriormente, 
teremos: 


Limite inf. 1º classe = 41% - 5% = 38,5% 
E 
Definindo, então, o limite inferior da primeira classe, basta, para obter- 
mos as classes da nossa distribuição, somarmos a amplitude do intervalo 
de classe (c = 5) a cada limite inferior. 


Assim, teremos: 

38,5 | 43,5 9 primeira classe; 
| 48,5 9 segunda classe; 
| 53,5 terceira classe; 

53,5 | 58,5 D quarta classe; 
| 63,5 9 quinta classe. 


Com base nesse cálculo, podemos obter uma organização dos dados 
conforme mostra a Tabela 3: 
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Tabela 3: Distribuição de frequências do percentual dos trabalhadores 
que contribuem com o INSS em 20 cidades de uma determinada 
região do Brasil no ano de 2008 


CLASSES (%) FREQUÊNCIA 


38,5 + 43,5 


43,5 + 48,5 
48,5 153,5 


58,5 + 63,5 


Fonte: Elaborada pelo autor deste livro 


? 
E 


Na Tabela 3 aparece uma nova denominação chamada “frequência”, 
em que abaixo dela há uma coluna repleta de interrogações (2). Vamos 
aprender a calcular valores no lugar dessas interrogações. Podemos ob- 
ter frequências chamadas de frequência absoluta (fa), frequência relati- 
va (fr) e frequência acumulada (fac). 


A frequência absoluta (fa) corresponde ao número de observações que 
temos em uma determinada classe ou em um determinado atributo de 
uma variável qualitativa. A frequência relativa (fr) corresponde à propor- 
ção do número de observações em uma determinada classe em relação 
ao total de observações que temos. Essa frequência pode ser expressa 
em termos percentuais. Para isso, basta multiplicar a frequência relativa 
obtida por 100. 


O cálculo da frequência relativa é obtido por meio da seguinte expressão: 


Sendo: 
fa = frequência absoluta da classe i. 


>a, somatório das frequências absolutas para i variando de 1 até n 
ei classes, ou seja, soma as frequências de cada uma das classes 
(fa +fa, +fa,+......+fa ), obtendo-se o total de observações. 


Apresentando os dados na forma de distribuição de frequência, você 
consegue sintetizar as informações contidas neles, além de facilitar sua 
visualização. Considerando essa discussão, elaboramos a Tabela 4, que 
traz as frequências (fa e fr) relacionadas à variável analisada. 


Tabela 4: Distribuição de frequências do percentual dos trabalhadores 
que contribuíram para o INSS em 20 cidades de uma determinada 
região do Brasil, no ano de 2008 


FR (PROPORÇÃO DE 


9 FA (CIDADES 
CLASSES (%) ( ) CIDADES) 


38,5 + 43,5 
435 +48,5 


48,5 + 53,5 
53,5 + 58,5 


58,5 + 63,5 
Lo Total 1 200 0 1 10 


Fonte: Elaborada pelo autor deste livro 


Para calcularmos a primeira proporção de 0,15, precisamos dividir a fre- 
quência da primeira classe (3) pelo total de observações (20). De forma 
similar, são calculadas as proporções das outras classes. 


Então, como ficaria a interpretação da distribuição de frequências? 


Se considerarmos ainda a Tabela 4, podemos dizer que os municípios 
com a porcentagem de trabalhadores que contribuíram para o INSS entre 
43,5% e 58,5%, dentre os 20 avaliados, totalizam 15 (4+7+4), e estão 
concentrados nas classes segunda, terceira e quarta. 


A apresentação dos dados em forma de distribuição de frequência facilita 
o cálculo manual de várias medidas estatísticas de interesse e facilita, 
também, a apresentação gráfica dos dados. 


Além das frequências absolutas e relativas, muitas vezes podemos estar 
interessados na quantidade de observações que existe acima ou abaixo 
de um determinado ponto na distribuição. 


Dessa forma, poderemos trabalhar com a frequência acumulada, como 
sugere a Tabela 5, que apresenta as frequências acumuladas da percen- 
tagem de trabalhadores que contribuíram para o INSS nas 20 cidades 
avaliadas. 


A frequência acumulada corresponde à soma da frequência de uma clas- 
se às frequências de todas as classes abaixo dela. 


A frequência acumulada apresentada na Tabela 5 pode ser obtida da se- 
guinte forma: abaixo do limite superior da primeira classe (43,5), temos 
três pessoas presentes nela, como vimos na Tabela 3 da distribuição de 
frequências absolutas. Quando consideramos a segunda classe (43,5 

| 48,5), a frequência acumulada corresponde ao número de pessoas 
que temos abaixo do limite superior dessa classe (48,5), ou seja, pessoas 
das quatro cidades da segunda classe mais as três cidades da primeira 
classe, totalizando sete cidades abaixo de 48,5%. Para as outras classes, 
o raciocínio é semelhante. 
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Tabela 5: Distribuição de frequência acumulada dos trabalhadores que 
contribuem com o INSS em 20 cidades de uma determinada 
região do Brasil no ano de 2008 


FREQ. ACUMULADA 
(RELATIVA) 


CLASSES (%) FREQ. ACUMULADA 
38,5 + 43,5 
43,5 + 48,5 
48,5 153,5 


53,5+ 58,5 


58,5 + 63,5 


Fonte: Elaborada pelo autor deste livro 


Já o valor da frequência acumulada relativa da segunda classe (0,35) é 
dado pela soma da frequência relativa da primeira classe (0,15) e da fre- 
quência relativa da segunda classe (0,20). 


SAIBA MAIS 


Os valores das frequências que você usou para somar estão na Ta- 
bela 3. Em caso de dúvida, reveja a tabela. 


Distribuição de Frequências de uma Variável Qualitativa 


Quando você trabalha com variáveis qualitativas, os atributos são as va- 
riações nominativas da variável. A construção da tabela consiste em con- 
tar as ocorrências dos níveis de cada atributo. O resultado da contagem 
define a frequência absoluta do atributo. Para podermos entender isso, 
tomemos como exemplo uma pesquisa na qual se procurou avaliar as 
frequências de cada gênero (homem ou mulher) de uma determinada 
cidade, que considera os serviços prestados pela prefeitura como satis- 
fatórios, em uma amostra de 50 pessoas. Esses resultados são apresen- 
tados na Tabela 6. 


Tabela 6: Distribuição de frequências do gênero de pessoas que consideram os 
serviços prestados pela prefeitura como satisfatórios 


Masculino 


Fonte: Elaborada pelo autor deste livro 


Distribuição de Frequências de uma 
Variável Quantitativa Discreta 


Tomando-se como exemplo o caso de uma variável aleatória discreta 
(v.a), realizou-se uma pesquisa durante 30 dias de um determinado mês 
com relação ao número de reclamações (N.R.) no setor de tributos de 


uma prefeitura considerada um modelo de gestão em tributos. Os resul- 
tados encontrados você pode acompanhar na Tabela 7, a seguir: 


SAIBA MAIS 


Vimos esse conceito no Capítulo 1. Em caso de dúvida, retorne e 
faça uma releitura atenciosa. 


Tabela 7: Dados referentes ao número de reclamações (NR) por dia no setor de 
tributos de uma prefeitura ao longo de 30 dias 


ESCESCAESCAESDAES 
7 13 19 25 


1 0 1 0 1 0 
2 2 8 2 14 0 20 0 26 3 
3 1 9 2 15 1 21 0 27 4 
+ 5 10 3 16 2 22 2 28 0 
5 3 11 0 17 3 23 0 29 2 
6 2 12 3 18 5 24 4 30 1 


Fonte: Elaborada pelo autor deste livro 


Dispondo esses dados em um rol (crescente) temos: 
0000000001111122222223533334455 


Podemos apresentar, a seguir, esses dados em uma distribuição de frequ- 
ências. Nesse caso, não é necessário definir intervalos de classes porque 
a variação dos valores é pequena (varia de O a 5) e a variável é discreta. 


Quando a variável é discreta, mas você tem uma quantidade muito gran- 
de de valores que ocorrem na amostra, então, você irá trabalhar com 
uma distribuição de frequências em classes. 


Na Tabela 8, você pode visualizar a distribuição de frequências do núme- 
ro de reclamações. Os cálculos das frequências absoluta e relativa são 
obtidos de forma semelhante à que foi vista anteriormente. 


Tabela 8: Número de reclamações ocorridas diariamente durante certo mês 


NÚMERO DE RECLAMAÇÕES POR DIA | NÚMERO DE DIAS (FA) | FREQ. RELATIVA 


0 


Fonte: Elaborada pelo autor deste livro 


Observe que esses valores da variável discreta correspondem a cada 
uma das classes. 
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Será que as tabelas de distribuição de frequências são a única forma 
que você tem de apresentar um conjunto de dados? 


Para descobrir a resposta à sua curiosidade, continue lendo o livro, 
pois essa resposta está na próxima seção. 


Representação Gráfica 


Na tentativa de responder ao seu questionamento anterior, vamos falar 
um pouco sobre algumas formas de representação gráfica de tabelas 
de frequência. Logicamente, dependendo do tipo de variável, temos um 
gráfico mais adequado. Os diferentes tipos de gráficos (histogramas, po- 
lígonos de frequência, ogivas, gráficos de setores, pictogramas e outros) 
permitem melhor visualização de resultados. Esses gráficos podem ser 
obtidos utilizando-se planilhas eletrônicas, como o Excel ou a planilha 
Calc do OpenOffice. 


SAIBA MAIS 


Para você construir gráficos e distribuições de frequência, bai- 
xe o programa estatístico Bioestat, que, além de ser gratuito, 
traz um livro na opção “ajuda”. Para isso, visite o site: <http:// 
www.mamiraua.org.br/downloads/programas>. Acesso em: 
20 jan. 2014. 


Para saber como utilizar a planilha Calc do pacote OpenOffice 
nas distribuições de frequências e de gráficos, acesse o site: 
<http://www.ufpa.br/dicas/open/calc-ind.htm>. Acesso em: 
20 jan. 2014. 


Os histogramas são gráficos constituídos por um conjunto de retângulos 
com as bases assentadas sobre um eixo horizontal, tendo o centro delas 
no ponto médio da classe que as representa e cuja altura é proporcional 
à frequência da classe. Esses gráficos são utilizados para representar ta- 
belas intervalares. 


Na Figura 8, temos o histograma da porcentagem de trabalhadores que 
contribuíram para o INSS em cada uma das 20 cidades analisadas. Os 
dados utilizados nesse gráfico são os da distribuição de frequências 
apresentados na Tabela 5, que indica o percentual de trabalhadores que 
contribuíram para o INSS em 20 cidades de uma determinada região do 
Brasil em 2008. 


g 
Ê 


435 48,5 53,5 58,5 
% de contribuição INSS 


Figura 8: Histograma representativo da distribuição de frequências do percentual dos trabalhadores 
que contribuíram para o INSS em 2008 
Fonte: Elaborada pelo autor deste livro 


Quanto ao polígono de frequência, você pode obtê-lo pela simples 
união dos pontos médios dos topos dos retângulos de um histograma. 
Para completar o polígono é necessário unir as extremidades da linha 
que une os pontos representativos das frequências de classe aos pontos 
médios das classes imediatamente anteriores e posteriores às classes 
extremas, que têm frequência nula. 


A Figura 9 mostra o polígono de frequências do percentual dos trabalha- 
dores que contribuíram para o INSS em 20 cidades de uma determinada 
região do Brasil em 2008. 


Frequência Absoluta 


36 41 46 51 56 61 
Ponto Médio das Classes 


Figura 9: Polígono de frequências do percentual dos trabalhadores que contribuíram para o INSS 
em 2008 
Fonte: Elaborada pelo autor deste livro 
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Quando você tem uma tabela que é trabalhada com uma variável qua- 
litativa, O tipo de gráfico adequado para apresentar os resultados é o 
gráfico de setores, também popularmente conhecido como gráfico tipo 
pizza (Figura 10). Sua construção é simples: sabemos que o angulo de 
360º equivale a 100% da área da circunferência; assim, para obtermos o 
ângulo do setor cuja área representa uma determinada frequência, basta 
resolvermos uma regra de três simples, como a apresentada a seguir: 


100% 


Frequência relativa (percentual) 


40% 
E] Masculino 
EB Feminino 


60% 


Figura 10: Gráfico do gênero de pessoas que consideram os serviços da prefeitura satisfatórios 
Fonte: Elaborada pelo autor deste livro 


No gráfico de pizza anterior, a fatia do gênero masculino corresponde a 
um ângulo de 1440 e a do gênero feminino a um ângulo de 2160. 


Com respeito aos gráficos chamados de ogivas, estes correspondem a 
um polígono de frequências acumuladas, no qual estas são localizadas 
sobre perpendiculares levantadas nos limites superiores das classes, 
sendo os pontos unidos para formar o polígono que representa as frequ- 
ências. Observe o modelo apresentado na Figura 11. 


Frequência Acumulada 


43.5 48.5 53.5 58.5 63.5 
Ponto Médio das Classes 


Figura 11: Ogiva “abaixo de” do percentual dos trabalhadores que contribuíram para o INSS 
em 20 cidades de uma determinada região do Brasil em 2008 
Fonte: Elaborada pelo autor deste livro 


Após o estudo da construção de distribuições de frequências e gráfi- 
cos, você deve ser capaz de organizar um conjunto de dados, por meio 
de uma distribuição de frequências (absoluta, relativa e acumuladas), 
e representá-lo graficamente. Para tanto, propomos a você um exemplo 
comentado para melhor fixar os conhecimentos adquiridos. 


SAIBA MAIS 


Para você fazer cálculos de distribuições de frequências e gráficos, 
utilize a planilha Calc do pacote OpenOffice disponível no site: 
<http:/Mum2.ufpa.br/dicas/open/o0-ind.htm>. Acesso em: 20 
jan. 2014. 


Exemplo 

Uma amostra de valores de IPTU de uma determinada região da cidade 
de Arapongas, no ano passado, revelou valores iguais a: (68,98; 72,92; 
89,19; 98,57; 123,34; 134,80; 141,34; 153,59; 158,59; 165,92; 169,21; 
175,76; 177,79; 178,07; 180,38; 181,99; 185,95; 188,83; 194,88; 
208,09; 214,66; 251,94; 265,70; 271,90; 276,59; 280,56; 303,99; 
318,33+. Com base nos dados fornecidos, vamos construir a tabela de 
distribuição de frequência. 


Para construí-la, primeiro precisamos encontrar: o número de classes, 
a amplitude total, a amplitude de classe e o limite inferior da primeira 
classe. 


O número de classes é dado por: k= vn, pois o tamanho da amostra é 
menor ou igual a 100. Como n = 28, temos: 


k=/28=6 


Nesse caso, aproximamos para seis classes e não para cinco, pois com 
cinco teremos valores superiores que podem ficar sem classe. 


A amplitude total (A) é a diferença entre o maior valor e o menor valor 
observados. Substituindo os valores, encontraremos: 


A = 318,33 — 68,98 = 249,35 


Sendo assim, a amplitude de classe será: 
c= A e, substituindo os valores correspondentes, teremos: 
k-1 
c= 249,35 = 49,87 
6 - 1 
Logo, o limite inferior da primeira classe é dado por: 


LI, =menor valor - 


LI, = 68,98- 49,87 = 44,04 (esse é o primeiro valor a ser colocado na 
z 


tabela). 


Agora, a partir desse limite inferior, podemos construir a tabela de dis- 
tribuição de frequência. Para preencher a coluna classes, começamos 
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com o limite inferior da primeira classe, lembrando que para encontrar 
O limite superior das classes basta somar a amplitude de classe (c) ao 
limite inferior. Agora é com você. Termine de calcular os limites de cada 
uma das classes. 


44.04 + 49,87 = 93,91 
93,91 + 49,87 = 143,78 


l 
293,39 + 49,87 = 343,26 


Após esse cálculo, vamos encontrar os valores da coluna frequência ab- 
soluta (Fa) e, para tanto, temos que contar quantos elementos da amos- 
tra pertencem a cada classe que acabamos de construir. Vamos lá: 


* Primeira classe: 44,04 (inclusive) a 93,91 (exclusive). Do conjun- 
to de dados, os valores que pertencem a esse intervalo são: 68,98; 
72,92; 89,19; ou seja, três valores. 


* Segunda classe: 93,91 (inclusive) a 143,78 (exclusive). Do conjun- 
to de dados, os valores que pertencem a esse intervalo são: 98,57; 
123,34; 134,80; 141,34; ou seja, quatro valores. 


E, assim, procedemos até encontrarmos as frequências das seis classes. 
Feita essa operação, é hora de calcularmos a coluna da frequência relati- 
va da classe i (F ), onde temos: 


ri 


F, 
F,=+ 
n 
F,=>=041 
28 
F,==014 
28 


Você deve proceder da mesma forma até a última classe e, após todos os 
cálculos, deve terminar de completar os valores para a montagem final 
da distribuição de frequências. Lembre-se de que o preenchimento da 
coluna frequência acumulada (Fac) corresponde à soma da frequência 
daquela classe às frequências de todas as classes anteriores a ela. Obser- 
ve a Tabela 9. 


Tabela 9: Distribuição de frequências de valores de IPTU de uma determinada 
região da cidade de Arapongas 


Fonte: Elaborada pelo autor deste livro 


Exemplo 

Imagine que a área de supervisão de atendimento de controle de uma 
prefeitura verificou a quantidade de materiais que foram rejeitados em 
quilograma (kg) da fábrica Manda Brasa S.A., que havia vencido uma 
licitação conforme os resultados apresentados na Tabela 10. 


Tabela 10: Frequência dos materiais rejeitados da fábrica 


Manda Brasa S.A. 


REJEITOS (EM KG) 


Fonte: Elaborada pelo autor deste livro 


Com base nos dados, vamos construir o histograma para as frequências 
apresentadas. Para tanto, basta colocarmos no eixo x os intervalos de 
classe e no eixo y as frequências, como mostra a Figura 12. 


2a8 H8a14 14220 H20a26 H26a32 '32a38 


Figura 12: Histograma da frequência de materiais rejeitados da fábrica Manda Brasa S.A. 
Fonte: Elaborada pelo autor deste livro 


Resumindo 


Neste Capítulo, você aprendeu a representar um conjunto de observa- 
ções e resumi-lo em tabelas e gráficos. Esses conceitos serão importan- 
tes na compreensão e no entendimento de um conjunto de dados. 
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ATIVIDADES 


Agora que você já viu os conceitos relacionados a distribuições de 
frequências e a representação gráfica de um conjunto de observa- 
ções, faça a atividade proposta a seguir. Em caso de dúvida, lembre- 
-se de que você tem um tutor pronto a lhe auxiliar. 


1. Dado o tempo, em minutos, de reuniões em um setor de uma 
prefeitura, conforme mostra a tabela, responda às questões a 


seguir: 
60 55 42 57 
40 28 — 28 
40 30 55 35 
25 55 40 38 
50 55 40 60 


a) Construa a distribuição de frequências absoluta, relativa e 
acumulada. 


b) Faça o histograma e o polígono de frequências da distribuição. 


CAPÍTULO III 


MEDIDAS DE POSIÇÃO 
E DISPERSÃO 


Prof. Marcelo Tavares 


Objetivos Específicos de Aprendizagem 
Ao finalizar este Capítulo, você deverá ser capaz de: 
* Calcular e interpretar as medidas de posição média, moda e mediana; 


* Entender como as medidas de posição influenciam na forma da distri- 
buição dos dados; 


* Calcular e interpretar as medidas de dispersão, amplitude total, vari- 
ância, desvio padrão e coeficiente de variação; 


* Entender as propriedades da média e o desvio padrão; e 


* Calcular e interpretar resultados de medidas separatrizes. 


Medidas de Posição 


Caro estudante, 

A partir de agora você vai conhecer uma nova forma de caracterizar um con- 
junto de observações. Para isso, vai aprender novos conceitos de medidas de 
posição e de dispersão. Para o entendimento dessas medidas de posição e de 
dispersão, serão utilizadas as duas situações apresentadas a seguir. Sempre que 
mencionarmos as situações, você deve vir até esta página para entender como 
estão sendo realizados os cálculos. Preparado para mais esse desafio? Então, 
vamos lá! 


Vamos iniciar nossa discussão pelas duas situações que utilizaremos 
como base. 


* Para facilitar um projeto de aplicação da rede de esgoto de certa re- 
gião de uma cidade, os engenheiros da Prefeitura Municipal tomaram 
uma amostra de 52 ruas, (tamanho total da amostra ou a soma de 
todas as frequências absolutas) contando o número de casas por rua. 
Os dados referentes a uma pesquisa de mercado foram agrupados 
como constam na Tabela 11: 
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Tabela 11: Distribuição de frequências do número de casas por rua 
de certa região de uma cidade 


NÚMERO DE CASAS POR RUA FREQUÊNCIA ABSOLUTA 


Fonte: Elaborada pelo autor deste livro 


* Taxa de efetivação da cobrança de um determinado tributo que se 
apresentava atrasado em uma prefeitura após uma campanha reali- 
zada para que ele fosse saldado. Esses resultados são diários e cor- 
respondem a percentuais de cobranças bem-sucedidas, conforme 
mostra a Tabela 12. 


Tabela 12: Taxa de efetivação da cobrança 


= 46 51 54 54 55 56 56 56 
58 qa 60 61 61 61 62 63 63 


Fonte: Elaborada pelo autor deste livro 


Convém destacarmos ainda que as medidas de posição ou de tendência 
central constituem uma forma mais sintética de apresentar os resulta- 
dos contidos nos dados observados, pois representam valores centrais, 
em torno dos quais os dados se concentram. As medidas de tendência 
central mais empregadas são a média, a mediana e a moda. A seguir, 
veremos cada uma delas. 


SAIBA MAIS 


Para você fazer cálculos de medidas de posição e de dispersão utilize 
o programa estatístico Bioestat 5.0 e, também, planilhas eletrônicas 
visitando o site: <http://www.juliobattisti.com.br/tutoriais/celso- 
nunes/openoffice007.asp>. Acesso em: 20 jan. 2014. 


Média 


Das três medidas de posição mencionadas, a média aritmética é a mais 
usada por ser a mais comum e mais compreensível delas e pela relati- 
va simplicidade do seu cálculo, além de prestar-se bem ao tratamento 
algébrico. 


É importante termos claro que a média aritmética ou simplesmente mé- 
dia de um conjunto de n observações, x,, x,, ..., X,, é definida por: 


Onde o somatório (à) corresponde à soma de todos os valores obtidos. 
Por exemplo, considerando o caso da taxa de efetivação (%) da cobrança 
de um determinado tributo que está atrasado em uma prefeitura (ver 
Tabela 12), se somarmos todos os valores do número das taxas e dividi- 
-los pelo total de dias avaliados, teremos, então, a média aritmética (x), 
a taxa de efetivações de cobrança por dia. Logo, o valor obtido será: x = 
56,67% (Obs.: Essa média é um percentual porque é a média de percen- 
tuais diários). 


Como podemos, então, fazer a interpretação da média? 


Poderíamos interpretar o resultado da média como sendo o número de 
efetivações diárias, caso este percentual fosse igual nos 20 dias avalia- 
dos. Na prática, em cada dia, podem ocorrer taxas maiores, menores ou 
até iguais ao valor médio encontrado. 


Portanto, de uma forma mais geral, podemos interpretar a média como 
sendo um valor típico do conjunto de dados que pode assumir um valor 
que não pertence a esse conjunto, pois nos dados utilizados para cálculo 
(exemplo anterior) não existe um taxa de efetivação diária de 56,67%. 


Todavia, se os dados estiverem agrupados na forma de uma distribuição 


de frequência em classes, lançamos mão da Hipótese Tabular Básica* 
para o cálculo da média. 


SAIBA MAIS 


*Hipótese Tabular Básica - todas as observações contidas em uma 
classe são consideradas iguais ao ponto médio da classe. Fonte: Ela- 
borado pelo autor deste livro. 


Então, você irá calcular a média por meio da seguinte expressão: 
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Onde: 

x, é o ponto médio da classe i; 

fa, representa frequência absoluta da classe i; e 

considerando a situação do número de casas na rua (Tabela 11), a média 
será dada por: 


a puxa, — (XS+(xM+.. +(18x5) 


RE = =8,73 casas 
- 5+7+...+5 
Dota, 
=] 


O valor de 1, apresentado na expressão, corresponde ao ponto médio da 
primeira classe, que foi obtido pela soma dos limites superior e inferior 
(0 + 2) dividida por dois, ou seja, a média aritmética. Os pontos médios 
das outras classes são obtidos de forma similar. 


Antes de darmos continuidade, é muito importante você saber que, em 
relação à notação matemática, quando calculamos a média a partir dos 
dados de uma população, devemos utilizar a letra m para designar a mé- 
dia populacional; e para média amostral a notação a ser utilizada é X . 
Na grande maioria dos casos, iremos trabalhar com amostras. A forma 
de cálculo é a mesma nas duas situações, mas as notações são diferen- 
tes, ou seja: 


Média populacional P uu 


Média amostral D X 


As médias são comumente utilizadas e apresentam propriedades especí- 
ficas. As principais propriedades são: 


* Asoma dos desvios* de um conjunto de dados em relação a sua mé- 
dia é nula, ou seja, igual a zero. Para entender essa propriedade, to- 
memos como exemplo a quantidade consumida de arroz do tipo Aem 
um refeitório de uma prefeitura: 10, 14, 13, 15, 16, 18, 12 quilos, nas 
quais o consumo médio diário encontrado foi de 14 quilogramas (Kg). 


SAIBA MAIS 


*Desvios - diferenças entre cada valor e um valor padrão, que pode 
ser a média. Fonte: Elaborado pelo autor deste livro. 


A soma dos desvios será: 


(10-14) + (14-14) + (13-14) + (15-14) + (16-14) + (18-14) 
+(12-14)=0 


* (Com a soma ou a subtração de uma constante (c) a todos os valores 
de uma variável, a média do conjunto fica aumentada ou diminuí- 
da dessa constante. Assim, voltando ao caso do consumo de arroz, 
apresentado no tópico anterior, se somarmos 2 a cada um dos valo- 
res (10, 14, 13,...), teremos a seguinte nova média: 


Y=(2+16+15+17+18+20+14)/7=16kgou 

Y=14+2=16kg 

* Na multiplicação ou na divisão de todos os valores de uma variável 
por uma constante (c), a média do conjunto fica multiplicada ou divi- 
dida por essa constante. Novamente pensando no caso do consumo 
de arroz, se multiplicarmos por 3 cada um dos valores, teremos nova 
média: 

=(30+42+39+45+48+54+436)/7=42kgou 

=14.3=42kg 


Existem outros tipos de médias que podemos utilizar: média ponderada 
(utilizada quando existe algum fator de ponderação); e media geométrica 
(quando os dados apresentam uma distribuição que não é simétrica), 
entre outras. 


As vezes, podemos, ainda, associar às observações X,, X,, ..., X, deter- 
minadas ponderações, ou pesos, W,, W,, ..., W que dependem da im- 
portância atribuída a cada uma das observações. Nesse caso, a média 
ponderada será dada por: 


Para entender melhor, imagine um processo de avaliação de funcionários 
públicos que foi divido em três etapas. Nessa avaliação, suponha que um 
dos colaboradores apresentou as seguintes notas durante a avaliação: 
12 etapa = 90; 22 etapa = 70; 3º etapa = 85; e os pesos de cada etapa 
são: 1, 1 e 3, respectivamente. Qual o escore médio final do funcionário 
público? 


E La (1x70) + (1x 90)+ (3x85) 415 q, 


Outro tipo de média é a geométrica (Mg), calculada pela raiz enésima 
do produto de um conjunto de n observações, X,, X,, ..., X, associadas 
às frequências absolutas f,f,,..., f, (número de vezes que aquele valor 
acontece), e respectivamente dada por: 
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SAIBA MAIS 


Este tipo de média você irá utilizar na disciplina Matemática Finan- 
ceira e Análise de Investimentos, que trabalharemos no próximo 
módulo. 


Sendo assim, considerando o caso da taxa de efetivação para pagamento 
do tributo atrasado (exemplo apresentado anteriormente), teremos: 


x 61" x 62x 63” = 56,40% 


Moda 


Em algumas situações, você verá que é necessária a informação do nú- 
mero de observações que mais ocorre em um conjunto de dados. No 
caso da taxa de efetivação da cobrança, verificamos que as taxas que 
mais ocorrem são 56 e 61. Assim, podemos definir a moda (Mo) como 
sendo o valor em um conjunto de dados que ocorre com maior frequ- 
ência. Um conjunto de dados pode ser em relação à moda: 


* unimodal > possui apenas uma moda; 

* “amodal > não possui moda, pois não existe nenhum valor que ocor- 
re com maior frequência; e 

* multimodal > possui mais de uma moda. 


Na situação comentada anteriormente, a distribuição é multimodal ou 
bimodal, pois apresenta duas modas, ou seja, dois valores com maior 
frequência, 56 e 61. 


Quando os dados não estão em intervalos de classes, basta olhar o valor 
que ocorre com maior frequência. 


Para dados agrupados em intervalos de classes, você pode calcular a 
moda por meio do método de Czuber, que se baseia na influência das 
classes adjacentes na moda deslocando-se no sentido da classe de maior 
frequência. A expressão que você utilizará é: 


Onde: 

L: limite inferior da classe modal; 

d, : diferença entre a frequência da classe modal e a frequência da classe 
imediatamente anterior; 

d, : diferença entre a frequência da classe modal e a frequência da classe 
imediatamente posterior, e 

c: amplitude da classe modal. 


No caso em que, para facilitar um projeto de aplicação da rede de esgoto 
de certa região de uma cidade, os engenheiros da Prefeitura Municipal 
tomaram uma amostra de 52 ruas, contando o número de casas (Tabela 
11), veremos que a classe modal é a quarta, pois apresenta maior frequ- 
ência (valor igual a 16). Utilizando a expressão mostrada anteriormente, 
teremos: 


5 
Mosid CL seda x4=9,54 casas 
+60 


di+d; 


Uma característica importante da moda é que ela não é afetada pelos va- 
lores extremos da distribuição, desde que esses valores não constituam 
a classe modal. 


Dessa forma, a moda deve ser utilizada quando desejamos obter uma 
medida rápida e aproximada de posição ou quando a medida deva ser o 
valor mais frequente da distribuição. 


Mediana 


Outra medida de posição que você pode utilizar é a mediana (Md), que 
consiste em um conjunto de valores dispostos segundo uma ordem 
(crescente ou decrescente). A mediana é o valor situado de tal forma 
no conjunto ordenado que o separa em dois subconjuntos de mesmo 
número de elementos, ou seja, 50% dos dados são superiores à mediana 
e 50% são inferiores. 


O símbolo da mediana é dado por Md ou X , e a sua posição é dada 
por meio da expressão: 


E (elemento central) = (n+1)/2 


Considerando um conjunto de dados com número ímpar de elementos 
(1,2,5,9,10,12, 13), a posição da mediana será dada pela metade do 
número de elementos mais um e esta soma dividida por dois, por exem- 
plo (7 + 1)/2 = 4º posição. Portanto, a partir dos dados ordenados, o 
número que se encontra na 4? posição é o 9 e, assim, a mediana será 
igual a 9 (temos três valores abaixo e três valores acima, ou 50% acima 
da mediana e 50% abaixo). 


E, caso o número de elementos do conjunto de dados seja par, por exem- 
plo, (1, 2,6,8,9,12,11, 13) a posição da mediana será: 


L 


CAPITULO 3 


L 


CAPITULO 3 


54 


E=(8+ 1)/2 = 4,5º posição 


Como a posição 4,5º está entre a 4º e a 5º? posição, calculamos a média 
aritmética entre os valores que ocupam essas posições. 


Nesse caso, o valor da mediana é de 8,5, porque é a média dos valores 
encontrados na 42 e a 5º posições, ou seja, vem de (8 + 9)/2. 


Quando os dados estão agrupados, devemos encontrar a classe media- 


na. Se os dados estão agrupados em intervalos de classe, como no caso 
do número de casa por rua, utilizaremos a seguinte expressão: 


EE. li + (n/2)- Ti 


xXx c 


f med 


Onde: 

li: limite inferior da classe mediana; 

n : número total de elementos; 

fa * frequência acumulada anterior à classe mediana; 


[eg * frequência absoluta da classe mediana; e 
c: amplitude da classe mediana. 


Portanto, resolvendo o caso em que, para facilitar um projeto de aplica- 
ção da rede de esgoto de certa região de uma cidade, os engenheiros da 
Prefeitura Municipal tomaram uma amostra de 52 ruas, contando o nú- 
mero de casas por rua, veremos que a posição da mediana será dada por: 


E = (52+1)/2 = 26,5º elemento, o qual está na quarta classe (8 | 12), 
que corresponde à classe mediana. 


Md =li+ n1Z) Sam xc=8+ ds jpg x4=8,75 casas 


16 


med 


Em um conjunto de dados, a mediana, a moda e a média não necessa- 
riamente devem apresentar o mesmo valor. Uma informação importan- 
te é que a mediana não é influenciada pelos valores extremos. Assim, 
para termos noção dos salários de uma empresa, é normalmente melhor 
usarmos a mediana dos salários, porque salários muito altos, apesar de 
mais raros, tendem a elevar muito a média salarial, tornando essa média 
menos representativa dos salários de um grupo de trabalhadores do que 
a mediana. Comparando os resultados encontrados para uma amostra 
em relação às medidas de posição estudadas e verificando a inter-relação 
entre elas, podemos concluir que seus valores podem nos dar um indica- 
tivo da natureza da distribuição dos dados, em face das regras definidas 
pela Figura 13: 


X> Md > Mo T=Má=io X <Md<Mo 


Então a distribuição Então a distribuição Então a distribuição é 
é assimétrica à direita ésimétrica assimétrica à esquer- 

(positiva), ou seja, da (negativa), ou seja, 
dados estão mais con- dados estão mais con- 
centrados à esquerda centrados à direita 


Figura 13: Natureza de distribuição de dados 
Fonte: Elaborada pelo autor deste livro 


Baseando-se nas distribuições da figura 13, pense e responda: 


1) Qual delas corresponde à distribuição típica dos salários de uma 
empresa? 


2) Qual delas corresponde à distribuição de notas de qualidade de ser- 
viços de uma empresa em que a maioria dos avaliadores atribui notas 
altas, próximas do máximo da escala? 


3) Qual delas corresponde à distribuição de alturas das pessoas na po- 
pulação humana? 


Separatrizes 


A principal característica das medidas separatrizes consiste na separação 
da série de dados ordenados em partes iguais que apresentam o mesmo 
número de valores. As principais são os quartis, os decis e os percentis. 


Os quartis são valores que dividem um conjunto de dados ordenados em 
quatro partes iguais. São necessários, portanto, três quartis (Q, Q,e Q,) 
para dividir um conjunto de dados ordenados em quatro partes iguais. 


* Q,: deixa 25% dos elementos abaixo dele. 
* Q,: deixa 50% dos elementos abaixo dele e coincide com a mediana. 
* Q,: deixa 75% dos elementos abaixo dele. 


A Figura 14 mostra bem a divisão dos quartis. Observe. 


Resposta: Resposta: 
Extremo 1º Quartil Mediana 3º Quartil Extremo 
Inferior Superior 


25% 25% 


| 50% | 
Faixa Central 


Figura 14: Representação dos quartis 
Fonte: Elaborada pelo autor deste livro 
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Se considerarmos a situação da taxa de efetivação da cobrança de um 
determinado tributo, que estava atrasado em uma prefeitura, após uma 
campanha realizada para que ele fosse saldado, teremos, de forma seme- 
lhante à Figura 14, a Figura 15: 


Figura 15: Quartis da taxa de efetivação da cobrança de um determinado tributo 
Fonte: Elaborada pelo autor deste livro 


Sendo assim, temos o cálculo da posição do elemento quartil dado por: 


EQi=in/4 (i=1,2,3) 


Sendo n o número de elementos observados, a regra para obtenção dos 
valores dos quartis, a partir da posição encontrada, será dada por: 


* quando n é ímpar, o arredondamento deve ser para cima da posição 
encontrada; e 


* quando n é par, devemos fazer a média do valor encontrado e do 
subsequente. 


Para melhor entendimento, elaboramos um exemplo para realizarmos 
juntos. Para tanto, considere a seguinte sequência de números para cál- 
culo dos quartis: (5, 2, 6,9,10,13, 15). 


Agora precisamos ordenar o conjunto de dados e, então, temos: (2, 5, 
6, 9,10, 13, 15). Observe que temos um número ímpar de observações 
(n=7). 


Sendo assim, obtemos a posição e, olhando no conjunto ordenado de 
dados, encontramos os valores dos quartis, conforme você pode obser- 
var a seguir. 


EQ1 = 1.74 = 1,75 =2º posição > Q1 =5 
EQ2 =2.7/4 = 3,5 & 4º posição > Q2 = 9 
EQ3 = 3.7/4 = 5,25 & 6º posição > Q3 = 13 


Agora vamos a outro exemplo, e para tanto considere um conjunto de 
dados com uma quantidade par de observações, a saber: (1, 1,2,3,5,5, 
6, 7,9,9,10, 13) P já ordenados. Então, temos: 


EQ1 = 1.12/4= 3º posição > Q1=(2+3)/2=2,5 
EQ2 = 2.12/4 = 6º posição > Q2 = (5 +6)/2=5,5 
EQ3 = 3.12/4 = 9º posição > Q3 = (9+9)/2=9 


Os decis são valores que dividem um conjunto de dados ordenados em 
dez partes iguais. 


O cálculo de cada decil será obtido de forma semelhante ao dos quartis, 
sendo diferente apenas a expressão de sua obtenção, que será dada por: 


Posição do elemento decil D EDi = in/10 (i=1,2,...,9) 


Os percentis são valores que dividem um conjunto de dados ordenados 
em 100 partes iguais. 


A posição de cada percentil será dada pela expressão a seguir, que é se- 
melhante a dos quartis e a dos decis: 


Posição do elemento percentil D EPi = in/100 (i=1,2,...,99) 


Essas medidas separatrizes são importantes quando queremos dividir 
um conjunto de dados em parte iguais; por exemplo, em quatro partes; 
e, assim, você terá os quartis. Essa separação permite uma formação de 
grupos que podem apresentar um mesmo padrão, quando, então, pode- 
remos identificar perfis importantes para serem utilizados em diversas 
áreas da Administração. 


Se nós calcularmos a média de cada cidade, teremos: 


AX =121mil pessoas; 
B>X 
C>x 


121 mil pessoas; e 


121mil pessoas. 


Note que as três cidades (A, B, C) apresentam médias iguais, apesar de 
serem bem diferentes entre si, pois enquanto na cidade B os dados são 
todos iguais, os das demais cidades apresentam certa variação, que é 
maior no conjunto C. Portanto, devemos associar medidas de posição e 
de dispersão para obtermos informações mais precisas de um conjunto 
de dados, ou seja, observar como esses dados se comportam em torno 
da medida de posição em questão. 


Medidas de Dispersão 


Como vimos anteriormente, é possível sintetizar um conjunto de obser- 
vações em alguns valores representativos, como média, mediana, moda 
e separatrizes. Em várias situações, é necessário visualizar como os da- 
dos estão dispersos. 


Tomando como exemplo algumas funções da área de Administração 
Pública que apresentem salários médios iguais, podemos concluir que 
sua contribuição social (% do salário) será a mesma? 


A resposta é sim somente com base no salário médio; mas estaríamos 
chegando a uma conclusão errada, pois a variação em termos de faixas 
salariais pode ser diferente, apesar de apresentarem a mesma média. 
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Suponhamos três cidades: A, Be C, que foram avaliadas durante cinco 
anos quanto ao número de declarantes na distribuição de patrimônio 
na faixa de renda mensal de 8 a 10 mil reais. Esses números estão “em 
milhares” de pessoas. 


A = (120, 122, 118, 124, 121) 
B= (121, 121, 121, 1421, 1215 
C = (116, 125, 124, 120, 120) 


Se nós calcularmos a média de cada cidade, teremos: 


AX =121mil pessoas 
B>X 
C>x 


Note que as três cidades (A, B, C) apresentam médias iguais, apesar de 
serem bem diferentes entre si, pois enquanto na cidade B os dados são 
todos iguais, os das demais cidades apresentam certa variação, que é 
maior no conjunto C. Portanto, devemos associar medidas de posição e 
de dispersão para obtermos informações mais precisas de um conjunto 
de dados, ou seja, observar como esses dados se comportam em torno 
da medida de posição em questão. 


121 mil pessoas 


121mil pessoas 


Amplitude Total 


A amplitude total é a diferença entre o maior e o menor valor observado, 
como vimos no Capítulo 2. 


Sendo assim, retomando nossos exemplos das cidades A, Be C, temos: 


A, = 124- 118 = 6 mil pessoas 
A, = 121121 = 0 mil pessoas 
A = 125 - 116 = 9 mil pessoas 


Desse modo, podemos identificar que a amplitude do conjunto C é bem 
maior do que a dos demais; e o conjunto B apresenta amplitude igual a zero. 


Essa medida apresenta a vantagem de ser facilmente calculada. Entre- 
tanto, o seu inconveniente é ser é muito afetada pelos valores extremos, 
pois no seu cálculo não são consideradas todas as observações. 


Variância 

Uma boa medida de dispersão deve ter as seguintes características: 
e estar baseada em todos os dados; 

e ser facilmente calculada; 


* ser compreensível; e 
* servir bem ao tratamento algébrico. 


Portanto, podemos afirmar que uma medida de dispersão deve utilizar 
todas as observações considerando os desvios de cada observação em 
relação à média (chamados erros ou desvios): 


Para obter um único número que represente a dispersão dos dados, pen- 
samos, inicialmente, em obter a média desses desvios, mas devemos 
lembrar de que a soma dos desvios de um conjunto de dados em relação 
a sua média é nula. 


Para resolver esse problema, utilizamos a soma dos quadrados dos des- 
vios, pois, ao elevarmos cada desvio ao quadrado, eliminamos o sinal 
negativo que estava trazendo complicações e fazendo com que, no so- 
matório, os desvios se anulassem. 


Posteriormente, dividimos a soma dos quadrados dos desvios pelo nú- 
mero de observações para obtermos a variância populacional, chamada 
de s2. A variância é uma medida quantitativa da dispersão de um conjun- 
to de dados em torno da sua média, além do fato de essa soma de qua- 
drados de desvios ser mínima, uma vez que estes desvios são calculados 
em relação à média. Variâncias baixas, próximas de zero, correspondem 
a dados observados distribuídos próximos da média. Variâncias altas, 
dados dispersos longe da média. 


Sendo assim, temos a expressão para cálculo da variância populacional, 
conforme mostrada a seguir: 


E não para por aí! Na maioria das vezes, trabalhamos com amostras e, 
nesse caso, a variância amostral (s2) será obtida pela expressão: 


Veja que nesse caso a soma do quadrado dos desvios é dividida por n — 
1, onde n corresponde ao tamanho da amostra. Esse valor n — 1 (número 
de observações menos um) é denominado de grau de liberdade*. 


SAIBA MAIS 


*Grau de liberdade - é o número de determinações independentes 
(dimensão ou tamanho da amostra) menos o número de parâmetros 
estatísticos a serem avaliados na população. Fonte: Elaborado pelo 
autor deste livro. 
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O grau de liberdade é um estimador do número de categorias indepen- 
dentes em um teste particular ou experiência estatística. Assim, no caso 
das cidades teremos: 


-12172 e a LA EAD 
gn 020 121) + (1222-121)? + +( ) =5 mil pessoal 


4 
2 
3 = (121- 121) + Entito est (IDH IZIP o PR 
116-121) +(125-121P +........ 120-121)? 
se — (UOTIZI) HQS ITA) + mnt ORI 13 mil pessoas” 


Para que você entenda melhor, veja a seguir algumas das principais pro- 
priedades da variância: 


* Avariância de uma constante k é nula. 
Ví(k) = 0, k = constante. 


* Ao somar ou ao subtrair uma constante k a todos os dados, a variân- 
cia não se altera. 
x=x+k 
Ví(x9 = V(x) 


* Multiplicando todos os dados por uma constante k, a variância é 
multiplicada por k?. 
x'=x.k 
V(x) = KV(x) 


Desvio Padrão 


Um inconveniente da variância é que ela é expressa em unidades ao 
quadrado, ou seja, caso você esteja trabalhando com milhares de reais, 
o resultado será expresso em “milhares de reais”, o que causa algumas 
dificuldades de interpretação. 


Para resolver esse problema, você pode utilizar o desvio padrão, que é 
definido como a raiz quadrada positiva da variância, sendo expresso na 
mesma unidade em que os dados foram coletados. 


= Vo? (desvio padrão populacional) 


s=Vs2 (desvio padrão amostral) 


Para o exemplo em questão, temos: 


Interpretando, vemos que: o desvio padrão de 3,60 mil pessoas nos in- 
dica a variação dos dados em torno da média, que é de 121 mil pessoas. 
Quanto menor for o desvio padrão, menor será a variabilidade, ou a 
variação. 


No caso de dados agrupados em classes, a expressão utilizada para cál- 
culo do desvio padrão será: 


Para que você entenda melhor, vamos imaginar uma situação em que, 
para facilitar um projeto de aplicação da rede de esgoto de certa região 
de uma cidade, os engenheiros da Prefeitura Municipal tomaram uma 
amostra de 52 ruas (Tabela 11), contando o número de casas por rua, 
na qual os dados estão agrupados em classes. Iremos calcular o desvio 
padrão da seguinte maneira: 


Com base nessa resolução, os números 1, 3 e 18 correspondem aos 
pontos médios das classes primeira, segunda e última, respectivamente 
Já os números 5 e 7 correspondem às frequências absolutas das classes; 
e o número 52 corresponde ao tamanho da amostra. 


Existem algumas propriedades que precisamos saber sobre desvio pa- 
drão. São elas: 


* Ao somar ou ao subtrair uma constante k a todos os dados, o desvio 
padrão não se altera. 
x=x+k 
s (x) = s(x) 


* Multiplicando todos os dados por uma constante k, o desvio padrão 
fica multiplicado por k 
x'= x.k 
s (x) = k. s(x) 


Coeficiente de Variação 


A variância e o desvio padrão são medidas de dispersão absolutas; e ape- 
nas podem ser utilizados para comparar a variabilidade de dois ou mais 
conjuntos de dados quando estes apresentarem: 


º mesma média; 
* mesmo número de observações; e 
* estiverem expressos nas mesmas unidades. 
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Então, para você comparar qualquer conjunto de dados em relação à sua 
variabilidade quando, pelo menos, uma dessas condições não é satisfei- 
ta, é necessário lançar mão de uma medida de dispersão relativa, como 
o coeficiente de variação (CV), que expressa a variabilidade dos dados 
em relação à sua média de forma percentual. Sua expressão é dada por: 


Para melhor entendimento, vamos elaborar um exemplo para você. 


Exemplo 

Imagine uma situação referente ao número de documentos falsificados 
que aparecem em um determinado setor da prefeitura e o valor arreca- 
dado por hora de um tipo de multa em reais. Em qual das duas variáveis 
ocorre maior variabilidade ou variação? 


DOCUMENTOS FALSIFICADOS (N2) | MULTA (REAIS) 


Utilizando o desvio padrão para comparar a variabilidade, você pode, a 
princípio, considerar que a multa apresenta maior variabilidade, já que 
tem maior desvio padrão. Entretanto, se utilizar o desvio padrão para 
comparar a variabilidade entre amostras, vai perceber que as médias são 
diferentes e também as unidades. 


Calculando, então, o coeficiente de variação, teremos os valores apre- 
sentados, a seguir: 


CV oc = 5:100= 2-.100= 22,7% 
x Za, 
1 
CV = -. 100 = 00100 =125% 


Perceba, então, que estávamos concluindo erroneamente que a multa 
é mais variável do que o número de documentos falsificados, além de 
termos cometido o disparate de comparar numericamente duas variáveis 
expressas em unidades diferentes. 


Portanto, o número de documentos falsificados apresentou maior dis- 
persão do que a multa, já que seu coeficiente de variação foi maior, mu- 
dando assim a conclusão anterior. 


Vamos ver agora outros exemplos de situações com a resolução comen- 
tada para você fixe melhor os conceitos deste Capítulo. 


Exemplo 1 
Considere as idades dos funcionários do programa Jovens que aprendem 
uma profissão, de duas prefeituras, apresentadas a seguir. 
Prefeitura A: (16; 15; 18; 15; 16; 16; 17; 18; 19; 17; 16) 
Prefeitura B: (15; 17; 19; 19; 17; 18; 19; 18; 18; 17; 16) 
Encontre a média, moda e mediana de cada prefeitura e identifique qual 


das prefeituras apresenta maior variabilidade na idade de seus jovens 
aprendizes. 


Prefeitura A 


Dx; 16+15+....+16 
no H 


e Média: x= = 16,64 


* Mediana: Md = 16, lembrando que, para encontrar a mediana, os 
dados devem estar ordenados. 


* Moda: Mo = 16, valor que aparece com maior frequência. 


Prefeitura B 


: eles Dx, 15+17+..+16 


= =17,54 
n 1 


* Mediana: Md = 18 (lembrando: para encontrar a mediana, os dados 
devem estar ordenados). 


* Moda: Mo = 17, 18 e 19 (distribuição multimodal, pois apresenta 
mais de duas modas). 


Para sabermos quem tem maior variabilidade, temos de calcular o co- 
eficiente de variação, pois, como os valores das médias são diferentes, 
não podemos usar o desvio padrão para comparar a variabilidade. Para 
encontrarmos o desvio padrão, precisamos primeiramente encontrar a 
variância usando a fórmula: 


a Xe: —3)º 


n—1 
Prefeitura A 
2 (16-16,64)º + (15 16,64)" +... + (16— 16,64)" 


e Variância: 5 EE =1,654 
* Desvio padrão: s = V1,654 =1,2862 
* Coeficiente de variação: CV = ..100= 12862 199= 7,7% 
x 16,64 
Prefeitura B 
2 2 2 
e YVariância: s? = 05-17,54)) +(17-17,54) +... + (1617,54)) =1,6726 


1=1 
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* Desvio padrão: s = /1,6726 =1,2933 


— 1,2933 


.100 = 7,3% 
17,54 


.. . = Ss 
* Coeficiente de variação: CV = —.100 
X 
Como os coeficientes de variação apresentam valores muito próximos, 
podemos concluir que a variabilidade na idade dos funcionários do pro- 
grama Jovens que aprendem uma profissão, das duas prefeituras, é pra- 
ticamente a mesma. 


Exemplo 2 

Considerando os dados apresentados a seguir, que são referentes ao per- 
centual de gastos com planejamento e com administração em cidades de 
diferentes portes, identifique as medidas de posição e de dispersão dos 
dados. 


Primeiramente, temos de encontrar os valores de x, (ponto médio), pois 
eles são indispensáveis no cálculo da média, variância etc. Logo, temos: 


X = 10; 20; 30; 40; 50; 60 
(soma: limite inferior + limite superior dividido por 2). 


Feita essa conta, vamos calcular a frequência acumulada. Acompanhe: 
Fo. — 2) 9 29; 34; 38; 40. 
Na sequência, com os valores do ponto médio, podemos calcular a média: 


ns 24% Xf;  10.2+20.7 +30.20+...+ 60.2 
5a 40 


Para encontrar a mediana, primeiramente temos de encontrar a classe 
mediana. Como n é par: x,, = Xp = Xo à qual classe pertence o ele- 
mento de posição 20º (32 classe)? 


32 


Vamos agora calcular a moda e, para tanto, precisamos encontrar a clas- 
se modal, aquela com maior frequência absoluta (3º classe). 


SAIBA MAIS 


Fique atento, pois as classes mediana e modal não necessariamente 
vão pertencer à mesma classe. 


.c=25+ aa .10=29,6 
13+15 


d, 


Mo = LL, +| —1— 
d, +d, 


Por fim, devemos fazer o cálculo das medidas de dispersão: 


7)? : = 2 = 2 
s? = > (=X) xf, (10-32) x2+...+(60-32) 2 SO 343590 


pel 40-1 
S= 8? =134,3590 = 11,5913 
CV = 5100 = 36,22% 

x 


Observe que, com as medidas de dispersão calculadas, podemos veri- 
ficar que a dispersão obtida foi média (36,22% em torno da média), ou 
seja, tanto para cima quanto para baixo. Se esse valor fosse bem menor, 
poderíamos considerar que os gastos com planejamento e com transpor- 
tes seriam mais uniformes. 


Exemplo 3 

Considerando as séries de dados apresentadas pelos gastos com trans- 
portes em relação ao total gasto em várias prefeituras, conforme descri- 
ção a seguir, imagine que você precise efetuar uma estimativa com base 
nesses dados. Sobre qual série é mais fácil fazer estimativas precisas? 
Por quê? 


Série A: (3,96; 3,17; 3,55; 3,61; 4,11; 4,57; 4,97; 5,91; 5,99; 5,74) 
Série B: (1,46; 2,09; 3,04; 5,12; 7,80; 8,25; 9,95; 15,24; 17,40; 21,74) 


Série A 
à Méd E Dix 396+3,17+....+5,74 SEE 
n 10 
<< 2 +) 2 
- Variância: 8º = AUD Q96-4558 +... +(5,74-4,558" | 939 
n-1 10-1 
* Desvio padrão: S=S? =V1,0939 =1,0459 


e Coeficiente de variabilidade: CV = o x 100 = 22,9% 


X 
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Dx; 1,46+209+....+21,74 


e Média: X= E To = 9,206 
- Variância: 5º = TD] ( (.46-9,209" +..+(21,74-9,206" 4774 
n-1 10 -—1 
* Desvio padrão: q . .Jq2 - 47,748 -691 
* Coeficiente de variabilidade: CV = 8 100 = 715% 
x 


Observe que na série A é mais fácil fazermos estimativas precisas, pois 
ela apresenta menor dispersão. 


Resumindo 


Neste Capítulo, você aprendeu conceitos básicos sobre as medidas de 
posição e de dispersão, e já pode caracterizar um conjunto de observa- 
ções. Esses conceitos são de extrema importância para as inferências 
estatísticas, para os testes de hipóteses e para as informações contidas 
nos próximos Capítulos desta disciplina. 


ATIVIDADES 


Agora que você já sabe como calcular e como utilizar as principais 
medidas de posição e de dispersão, exercite-as fazendo as ativida- 
des a seguir, que serão importantes na consolidação dos conheci- 
mentos adquiridos. Em caso de dúvida, lembre-se de consultar seu 
tutor por meio do AVA. 


1. Considere a sequência numérica apresentada, que mostra as 
idades de motociclistas e de seus caronas na época em que 
morreram em acidentes fatais de trânsito. 


7 38 27 14 18 34 16 
42 28 24 40 20 23 31 
37 21 30 25 17 28 33 
25 23 19 51 18 29 


Calcule a média, moda, mediana, variância, desvio padrão e o 
coeficiente de variação para os dados não agrupados. 


2. Imagine um determinado setor de uma prefeitura que esteja 
apresentando problemas com o afastamento de funcionários 
por motivos de saúde durante períodos muito longos. Uma 
amostra de dez casos apresentou os seguintes números de dias 
afastados em um semestre: 


28 2 io A 6/12/8945 DIDO 


Calcule as medidas de posição e de dispersão em relação ao 
número de dias em que os servidores ficaram afastados. 


CAPÍTULO IV 


PROBABILIDADE 


Prof. Marcelo Tavares 


Objetivos Específicos de Aprendizagem 
Ao finalizar este Capítulo, você deverá ser capaz de: 
* Definir o termo probabilidade; 


* Descrever as abordagens clássicas das frequências relativa e subjetiva 
da probabilidade; 


* Entender os termos experimento, espaço amostral e evento; 
* Definir os termos probabilidade condicional e probabilidade conjunta; e 


* Calcular probabilidades aplicando as regras da adição e da multiplicação. 
Introdução 


Caro estudante, 

Vamos iniciar mais um Capítulo e nele veremos o conceito de probabilidade. 
É importante que você esteja atento aos exercícios resolvidos e, à medida que 
for avançando, relembre os conceitos aprendidos já. Preparado para mais esse 


desafio? Então, vamos juntos! 


A origem da Teoria das Probabilidades está relacionada aos jogos de azar 
desde o século XVII, pois surgiu da necessidade de um método racional 
para calcular os riscos dos jogadores em jogos de cartas, de dados etc. 


Posteriormente, essa teoria passou a auxiliar governos, empresas e or- 
ganizações profissionais em seus processos de decisões, ajudando a de- 
senvolver estratégias. Na área da Gestão, passou a ser uma ferramenta 
para a tomada de decisões e para a análise de chances e de riscos. Por 
exemplo, para decidir por um ou por outro procedimento médico, é es- 
sencial conhecermos as chances de cada um dar certo; isso vale também 
na escolha de alternativas decisórias de um sistema de gestão. Até para 
sabermos os riscos de uma exposição pública afetar a imagem de um 
político, temos de conhecer a probabilidade de ela causar dano ou não. 
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Para que você possa entender melhor os principais conceitos de pro- 
babilidade, destacamos dois tipos de fenômenos: 


* Fenômenos determinísticos: aqueles que invariavelmente dão o 
mesmo resultado se repetidos essencialmente sob as mesmas con- 
dições específicas. Um exemplo é a aceleração da gravidade atuante 
sobre um corpo em queda livre na ausência de ar (vácuo). Nesse 
caso, a aceleração sempre será a mesma, pois não temos variações 
que venham a influenciar o resultado. 


* Fenômenos aleatórios: aqueles que, mesmo repetidos sob as mes- 
mas condições, apresentam potencialmente variações nos resulta- 
dos. Pense na reação de um cliente quando ele não é atendido no ho- 
rário marcado ou no resultado do lançamento de um dado. Em cada 
uma dessas situações os resultados nem sempre serão os mesmos. 
São aleatórios, ou seja, não há resultado certo ou predeterminado. 


São nos fenômenos aleatórios que a Teoria das Probabilidades auxilia na 
análise e na previsão de um resultado futuro. Quando você pensa em 
probabilidade, quer identificar a chance de ocorrência de um determina- 
do resultado de interesse em situações nas quais não é possível calcular 
com exatidão o valor real do evento (fenômeno aleatório), ou seja, tra- 
balha com chances ou probabilidades. 


Uma situação que exemplifica esse fato está associada à seguinte 
pergunta: qual o grau de certeza de que um funcionário público 
cumprirá sua meta de trabalho na semana que vem? 


Para responder a essa e a outras perguntas, você poderá aplicar alguns 
conceitos apresentados a seguir. 


Experimento Aleatório 


Para você calcular a probabilidade de um resultado, é necessário que ele 
esteja associado a um experimento aleatório, ou seja, a qualquer proces- 
so que tenha um resultado incerto ou casual. 


Um processo é considerado um experimento aleatório se tiver as seguin- 
tes características: 


* cada experimento pode ser repetido indefinidamente sob as mesmas 
condições (n); 


* não se conhece a priori, ou seja antecipadamente, o resultado do 
experimento, mas pode-se descrever todos os possíveis resultados; e 


* quando o experimento for repetido inúmeras vezes, surgirá uma regu- 
laridade dos resultados possíveis, isto é, haverá uma estabilidade da 
fração f= = (frequência relativa) da ocorrência de um particular 
resultado, em que r corresponde ao número de vezes em que um 


determinado resultado aconteceu nas n vezes em que o experimento 
aleatório foi repetido. 


Para ilustrar, podemos considerar que um processo aleatório correspon- 
de ao lançamento de uma moeda não viciada (aquela em que as chances 
de sair cara ou coroa são iguais) jogada inúmeras vezes. Não conhe- 
cemos o resultado de cada lançamento, mas conhecemos os possíveis 
resultados (cara ou coroa). Quando você lança a moeda três mil vezes, 
por exemplo, ocorre a estabilização da frequência relativa de cada resul- 
tado em 0,5 ou probabilidade de 0,5. A Figura 16 mostra que no início a 
frequência relativa não é tão próxima de 0,5, como acontece após 1.000 
jogadas. 
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1000 


Número de vezes jogado 
Figura 16: Experimento aleatório 
Fonte: Elaborada pelo autor deste livro 


Perceba, com base nos experimentos e nas situações mencionadas, que 
a incerteza sempre está presente, o que quer dizer que, se esses experi- 
mentos forem repetidos em idênticas condições, não se pode determinar 
qual resultado exato ocorrerá. 


SAIBA MAIS 


A incerteza está associada à chance de ocorrência que atribuímos ao 
resultado de interesse. 


Para entender melhor esse conceito, vamos considerar como exemplo o 
setor de atendimento de uma determinada prefeitura, o qual conta com 
seis funcionários. Um experimento ao acaso seria a escolha aleatória de 
um dos funcionários. Podemos considerar o gênero do funcionário esco- 
lhido como o que queremos verificar. Você, então, vai aplicar os concei- 
tos já vistos de experimento aleatório. Veja que se trata mesmo de um 
experimento aleatório, pois sabemos quais resultados podem ocorrer, ou 
seja, um dos seis funcionários será o escolhido; entretanto, não pode- 
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mos dizer com certeza que resultado (gênero) sairá nesse sorteio, pois 
dependerá da pessoa sorteada. 


Agora que você entendeu o que é experimento aleatório, você irá 
compreender outro conceito importante: o de espaço amostral. 


Espaço Amostral (()) 


Vamos considerar a situação aleatória em que determinado funcionário 
público consegue ou não atingir sua meta de produtividade. 


Nesse caso, quais os possíveis resultados que você pode ter? 


O funcionário poderá atingir ou não a meta. Então, temos apenas dois 
resultados possíveis. O conjunto desses resultados possíveis, que pode- 
riam ser mais de dois, também, no caso de outras situações, é definido 
como espaço amostral* e pode ser simbolizado por S ou “2 (ômega). 


SAIBA MAIS 


*Espaço amostral - conjunto de todos os resultados possíveis de 
um experimento aleatório. Fonte: Elaborado pelo autor deste livro. 


No nosso caso, teremos º2 = (atinge; não atinge) 


Lembrando-nos do Diagrama de Venn, que você estudou na disciplina 
Matemática para Administradores, podemos representar o espaço amos- 
tral conforme indica a Figura 17: 


SAIBA MAIS 


Os Diagramas de Venn são úteis para mostrar a relação entre os 
elementos de um conjunto. 


Não atinge 


Figura 17: Representação do espaço amostral 
Fonte: Elaborada pelo autor deste livro 


A definição do espaço amostral é de fundamental importância, pois, mui- 
tas vezes, a partir dele você pode calcular probabilidades. Veremos isso 
um pouco mais à frente. 


Nesse caso, se todos os resultados possíveis de um experimento ale- 
atório constituem o espaço amostral, o que será cada resultado em 
particular? 


Com intuito de responder à essa proposição, daremos continuidade ao 
nosso estudo. Vamos à próxima seção. 


Evento 


Qualquer subconjunto do espaço amostral (12) associado ao experimento 
aleatório é chamado de evento, ou seja, um determinado resultado que 
ocorra dentro do espaço amostral. Então, em nosso exemplo, o funcioná- 
rio público que cumprir a meta será considerado como um dos eventos 
que compõem o espaço amostral. Nesse caso, o nosso espaço amostral 
apresenta dois eventos apenas (cumprir ou não cumprir a meta). 


Geralmente, calculamos as chamadas probabilidades desses eventos asso- 
ciadas ao nosso espaço amostral. Por isso a importância de você ter esse 
conceito bem definido! 


Imagine que algumas secretarias municipais oferecem, por cortesia, cadei- 
ras suficientes em determinado setor para que os contribuintes possam 
esperar confortavelmente; e outras secretarias não ofereçam essa cortesia. 
Vamos ver como esse problema pode ser formulado dentro do contexto 
de experimento aleatório, espaço amostral e eventos. 


O experimento é a seleção de uma secretaria e a observação do fato de 
essa secretaria oferecer ou não a cortesia. Há dois pontos amostrais no 
espaço correspondente a esse experimento: 


S:fa secretaria oferece a cortesia) 
N:fa cortesia não é oferecida pela secretaria) 


Um ponto importante a ser considerado é o de que nem sempre as chan- 
ces de ocorrência de dois eventos opostos ou mutuamente exclusivos são 
iguais a 50%, como no caso do lançamento de uma moeda. Nessa situa- 
ção, provavelmente a chance de a secretaria oferecer a cortesia de assen- 
tos (S) poderá ser bem maior do que a de não oferecer (N). 


Definições de Probabilidades 

Até agora vimos diferentes e importantes conceitos relacionados à esta- 
tística. Vamos agora definir o que vem a ser probabilidade. Para entender 
esse conceito, imagine as seguintes situações: 


* 50% de que o resultado do lançamento de uma moeda seja cara; 


* 95% de certeza de que um determinado serviço será realizado por 
uma prefeitura em tempo hábil; e 


* 1 em cada 10 servidores públicos não tem ido trabalhar pelo menos 
um dia na semana. 
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Como você pode ver, estamos falando acerca das chances de que algo 
venha a acontecer. Então, probabilidade pode ser assim considerada: a 
chance de que um determinado evento venha a ocorrer. 


As probabilidades apresentam diferentes visões. As principais são 
mostradas a seguir. Acompanhe! 
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A Probabilidade Objetiva nasceu no século XVII por interesse comum de 
Fermat e Pascal. 


SAIBA MAIS 


Pierre Fermat (1601-1665) - Matemático francês que passou par- 
te de sua vida como conselheiro do parlamento de Toulouse. Seu 
campo predileto de estudos foi o da teoria dos números, na qual se 
consagrou. Fermat deu considerável impulso à aritmética superior 
79 moderna, exercendo grande influência sobre o desenvolvimento da 
álgebra. Fermat se sobressai, ainda, no terreno do cálculo de proba- 
bilidades. Fonte: IME USP (2008). 


Blaise Pascal (1623-1662) - Com apenas três anos, perdeu a mãe. O 
pai encarregou-se diretamente da sua educação, desenvolvendo um 
método singular de educação com exercícios e jogos de disciplinas, 
como Geografia, História e Filosofia. Contudo, seu pai acreditava 
que a Matemática somente deveria ser ensinada ao filho quando 
este fosse mais velho. Porém, Pascal descobriu cedo as maravilhas 
da ciência dos números. Aos 12 anos, mesmo sem professor, ele de- 
duziu que a soma dos ângulos de um triângulo é igual a dois ângulos 
retos. Fonte: IE ULISBOA (2008). 


Se um evento pode ocorrer de N maneiras mutuamente excludentes* e 
igualmente prováveis*, e, se m dessas ocorrências têm uma caracterís- 
tica E, então, a probabilidade de ocorrência de E é: 


SAIBA MAIS 


*Mutuamente excludentes - a ocorrência de um evento exclui a 
possibilidade da ocorrência simultânea do outro. Fonte: Elaborado 
pelo autor deste livro. 


*Igualmente prováveis - ocorrem com a mesma chance ou proba- 
bilidade. Fonte: Elaborado pelo autor deste livro. 


m 
PE) =— 
É =» 


Onde: 

m: número de eventos favoráveis à probabilidade E que se deseja calcu- 
lar, ou seja, o número de vezes que E acontece; e 

N: número total de ocorrências de eventos no espaço amostral. 


Vejamos exemplos de probabilidades a serem obtidas: 


* Um dado homogêneo tem probabilidade 1/6 de cair com a face 2 
para cima. 


* Em um conjunto de cartas (sem os coringas) bem embaralhadas, a 
probabilidade de sortearmos uma carta de copas é de 13/52. 


A visão da frequência relativa depende da reprodutibilidade* do mesmo 
processo e da habilidade de contarmos o número de repetições. 


SAIBA MAIS 


*Reprodutibilidade - ocorrência diversas vezes de um mesmo evento. 
Fonte: Elaborado pelo autor deste livro. 


Sendo assim, se algum processo é repetido um grande número de vezes, 
n, e se algum evento com característica E ocorre m vezes, a frequência 
relativa m/n é aproximadamente igual à probabilidade de E: 


P(E) =m/n 


Contudo, observe que m/n é apenas uma estimativa de P(E). Lembre-se 
do experimento anteriormente citado em que uma moeda é lançada três 
mil vezes (Figura 16). 


A visão da probabilidade subjetiva é uma medida da “confiança” que te- 
mos sobre a verdade de certa proposição, apesar de não termos cálculos 
precisos sobre esse valor. Imagine proposições sobre a probabilidade 
de que o Brasil vença a próxima copa do mundo ou que em três anos 
teremos um modelo eficiente de gestão pública ou que as capacidades 
do processamento computacional se igualarão à capacidade do cérebro 
humano em 30 anos. São apenas estimativas educadas que não se ba- 
seiam em cálculos precisos. 


Para que você entenda melhor algumas das definições de probabilida- 
de, veja a descrição que preparamos ao longo de uma situação. 


Imagine que em um determinado setor de uma prefeitura há os seguintes 
funcionários: Carlos, Jackeline, Giulyana, Girlene, Cláudio e Larissa, ou 
seja, seis funcionários. Vamos pensar agora: qual a probabilidade de se 
escolher um funcionário ao acaso e ele ser do gênero masculino? 
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Para obtermos as respostas, vamos definir o espaço amostral e o evento 
desejado. Consideremos espaço amostral ou conjunto de possibilidades 
todos os funcionários públicos do setor. 


S = (Carlos, Jackeline, Giulyana, Girlene, 


Cláudio, Larissa) 


Jackeline 


E, para definir o evento favorável, precisamos considerar este o conjunto 
de possibilidades favoráveis que nos interessa, ou seja, os funcionários 
do gênero masculino. 


Evento = (Carlos, Cláudio) 


Cláudio 


Então, a probabilidade que estamos procurando, ou seja, a de escolher 
um funcionário ao acaso e ele ser do gênero masculino, pode ser apre- 
sentada conforme a descrição a seguir: 


DA EA E pa 2 número de funcionários do sexo masculino 
P( funcionário público gênero masculino )J=—= O a O 
número total de funcionários 


Considerando outros três eventos relativos aos funcionários da prefeitu- 
ra, descritos anteriormente, temos: 


e A (funcionário ser do sexo feminino). 
* B (seu nome começar com a letra G). 
* C (seu nome começar com a letra C). 


Então, poderemos definir os eventos mencionados anteriormente como 
a seguir e calcular facilmente suas probabilidades. Faça isto como um 
exercício: 


* A = (Jackeline, Giulyana, Girlene, Larissa). 
* B= (Giulyana, Girlene>. 
e C = (Carlos, Cláudio). 


Você pode definir a probabilidade como uma função que atribui um nú- 
mero real aos eventos do £?2 (se A é um evento do £2, P(A) é a probabili- 
dade de A), a qual satisfaz: 


* P(2) = O (probabilidade de vazio é igual a zero). 


* P(Q) = 1 (probabilidade de acontecer; todo o espaço amostral é igual 
a um). 


* O<P(A)<1 (a probabilidade de um determinado evento, sempre 
estará entre zero e um). 


Você pode ainda utilizar a regra da soma, pela qual, dados dois eventos 
mutuamente exclusivos*, A e C de 2, temos: 


SAIBA MAIS 


*Eventos mutuamente exclusivos - são aqueles que não podem 
acontecer simultaneamente. Fonte: Elaborado pelo autor deste livro. 


P(AUVC)=P(A)+ P(C) 


JO 


Já no caso a seguir, em que os eventos não são mutuamente exclusivos e 
podem ocorrer simultaneamente, na regra da soma, devemos considerar 
que a intersecção (área) será contada duas vezes. 


A - B 


Nesse caso, devemos retirar uma vez a área de (A N B) na regra da soma, 
pois, como você pode ver nos desenhos anteriores, a interseção (A N B) 
é contada duas vezes. 


P(A UB) = P(A) + P(B) -P(AnB) 
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Lembre-se de que o símbolo N corresponde à interseção e U correspon- 
de à união. 
Considerando os eventos A, Be C, citados anteriormente, temos as se- 


guintes situações: 


* AUCéO evento em que A ocorre ou C ocorre ou, ainda, ambos 
ocorrem — (Carlos, Jackeline, Giulyana, Girlene, Cláudio, Larissa). 


E há chance de acontecerem dois eventos simultaneamente, como você 
pode observar na descrição, a seguir: 


* AnNBéo evento em que A e B ocorrem simultaneamente — (Giulya- 
na, Girlene). 


Em muitas situações o que nos interessa é aquilo que pertence ao espa- 
ço amostral e não pertence ao evento de interesse. A Figura 18 mostra 
bem isso: 


Figura 18: Espaço amostral 
Fonte: Elaborada pelo autor deste livro 


A ou A“ é o evento em que A não ocorre (complementar de A). Em nosso 
exemplo, consideramos que o complementar de A (funcionário ser do 
gênero feminino) corresponde a todas as pessoas do gênero masculino, 
ou seja: 


A ou Aº = (Carlos, Claudio) 


Probabilidade Condicional 


A partir de agora você verá outros conceitos de probabilidade e, para 
tanto, deve considerar os dados, a seguir, referentes a uma prefeitura em 
que foram selecionados, a partir de uma amostragem estratificada (vista 
anteriormente), 101.850 contribuintes das classes média-baixa e alta. 
Posteriormente, foi feita a verificação do número de contribuintes de 
cada classe social que pagaram um determinado tributo em dia (evento: 
pagaram) e também o número de contribuintes que não pagaram em 
dia o tributo (evento: não pagaram). Para compreender essa descrição, 
observe os resultados descritos na Tabela 13: 


Tabela 13: Contribuintes pagantes e não pagantes 


MÉDIA-BAIXA TOTAL 


39.577 8.672 48.249 


46.304 7.297 53.601 
85.881 15.969 101.850 


Fonte: Elaborada pelo autor deste livro 


Podemos considerar então que o espaço amostral (12) corresponderá ao 
conjunto de 101.850 contribuintes. 


Agora, para ampliarmos essa discussão juntos, você vai considerar os 
eventos apresentados, a seguir, para trabalhar com eles. 


* P= contribuintes que pagaram o tributo em dia. 
* NP = contribuintes que não pagaram o tributo em dia. 
* MB = contribuintes da classe média-baixa. 


* P9 MB = contribuintes que pagaram (P) o tributo em dia e ao mes- 
mo tempo são da classe média-baixa (MB). 


* PU MB = contribuintes que pagaram (P) o tributo em dia ou são da 
classe média-baixa (MB). 


Você pode obter, então, as probabilidades de alguns eventos considera- 
dos anteriormente, por exemplo: 


nº total de contribuintes 101.850 


p(p)="" de contribuintes que pagaram em dia | 48.249 


EE ——— = 0,473 

nº total de contribuintes 101.850 

Considerando os contribuintes que pagaram e os que não pagaram em 
dia, temos apenas esses dois resultados possíveis. Para obtermos a pro- 
babilidade de contribuintes que não pagaram em dia, basta obtermos 
a probabilidade complementar do evento P. A probabilidade de todo o 
espaço amostral (101.850) é igual a 1 menos a probabilidade de contri- 
buintes que pagaram em dia (P). Nesse caso, estamos usando o conceito 
de eventos complementares. Este cálculo é mostrado a seguir: 


NP= P (não pagaram (NP ou P) é o complementar dos que pagaram (P)) 


ou seja, P(NP) = P(P)= 1-P(P) = 1-0,473 =0,527 


Com base nesse conhecimento, podemos calcular a probabilidade de 
escolher um contribuinte aleatoriamente e este ser da classe média-baixa 
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ou ser quem paga em dia o tributo. Veja que, nesse caso, os eventos 
não são mutuamente exclusivos, ou seja, existem contribuintes que são 
comuns nas duas situações ao mesmo tempo. Assim, a probabilidade 
procurada será dada por: 


39.577 0,388 
101.850 


P(P U MB) = P(P) + P(MB) - P(RAMB) 
P(PU MB) = 0,473 + 0,843 - 0,388 
P(P U MB) = 0,928 


Vamos considerar ainda o exemplo anterior. Se você souber que um 
contribuinte sorteado paga em dia o tributo, qual a probabilidade de 
que ele seja da classe média-baixa? 


Agora, temos uma informação parcial e importante: o contribuinte sele- 
cionado paga em dia. Vamos então designar a probabilidade de P quando 
se sabe que o contribuinte paga em dia o tributo e MB quando ele é da 
classe social média-baixa. 


Assim, a probabilidade que chamaremos de P(MB/P) é denominada de 
probabilidade (condicional) de MB dado P (lembre-se que o símbolo 
/ não corresponde a uma divisão e sim a uma condição de que outro 
evento já aconteceu). Então, nesse caso, temos o que chamamos de pro- 
babilidade condicionada, ou seja, a probabilidade de um evento aconte- 
cer dado que, sabendo que, outro evento já aconteceu. Sendo assim, é 
natural atribuirmos: 


nº de contribuintes que são da classe MÉDIA-BAIXA e pagam em dia - 
nº total contribuintes que pagam em dia 


P(MB/P) = 


Veja que, nesse caso, ocorreu uma redução no espaço amostral inicial 
(total de contribuintes da Tabela 13), já que tínhamos a informação an- 
terior de que o contribuinte selecionado pagava em dia. Dessa forma, o 
espaço amostral total que tínhamos (101.850), foi reduzido para 48.249 
(total de pagantes em dia) e, destes, interessam-nos os que são da classe 
social média-baixa. Sendo assim: 


nº de contribuintes da classe MÉDIA-BAIXA e que pagam em dia 
P (MB/P) = nº total de contribuintes 
nº de contribuintes que pagam em dia 
nº total de contribuintes 


P(MB A P) 


P (MB/P) = RE 


Portanto, você pode generalizar para dois eventos A e B quaisquer de um 
experimento aleatório. Dessa forma, podemos dizer que a probabilidade 
condicional de A dado B (escreve-se como P (A / B)) é definida por: 


P(ANB) 
P(B) 


P(A/B)= 


De posse desse conhecimento, podemos definir, a partir de agora, a re- 
gra do produto, conforme discutiremos na próxima seção. 


Regra do Produto e Eventos Independentes 


A partir da probabilidade condicionada definida anteriormente, obtere- 
mos a chamada regra do produto para a probabilidade da interseção de 
dois eventos A e B de um espaço amostral: 


Passe a probabilidade de ocorrência de B na probabilidade condicionada 
e multiplique pela probabilidade de ocorrência de A sabendo que B já 
aconteceu. 


= P (A/B) - P(B) 


Logo, se dois eventos A e B são independentes, então P(A /B) = P(AJ ou 
P(B/A) = P(B), já que um evento não interfere no outro. 


Desse modo, se A e B forem independentes, você pode verificar que: 


P(A/B)= 


a => P(ANB) = P(A! B)P(B)=> P(AN B) = P(AJP(B) 


Então, para que dois eventos A e B quaisquer sejam considerados inde- 
pendentes é necessário fazer a seguinte relação: 


P(A n B) = P(A). P(B) 


Para compreender melhor essa nossa discussão, analise outra situação 
na qual utilizaremos os conceitos aprendidos de probabilidade. Para tan- 
to, considere os dados a seguir, representativos da distribuição da renda 
anual de funcionários públicos de dois setores (A e B), apresentados na 
Tabela 14. 
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Tabela 14: Distribuição de renda anual de funcionários públicos 


SETOR 


(EM R$1.000,00) A 


B 
mesm [5 [5 [0 »| 


Fonte: Elaborada pelo autor deste livro 


Observando os dados descritos na Tabela 14, podemos identificar clara- 
mente a probabilidade de um funcionário aleatoriamente escolhido: 


a) ser do setor À 5> P(A) = 115/200 = 0,575 (há 115 funcionários do 
setor A em um total de 200 funcionários); 


b) ser do setor B > P(B) = 85/200 = 0,425 (há 115 funcionários do se- 
tor A em um total de 200 funcionários); 


c) ter renda entre R$ 15.000,00 e R$ 20.000,00 5 P(R1) = 110/200 
=0,550 (110 funcionários correspondem aos que têm a faixa de ren- 
da solicitada); 


o 


ser do setor B e ter renda entre R$ 15.000,00 e R$ 20.000,00 5 (in- 
tersecção), ou seja, P(B M R1) = 40/200 = 0,20 ( 40 funcionários 
correspondem aos que têm a faixa de renda solicitada e ao mesmo 
tempo são do setor B); e 


e) ter renda entre R$ 15.000,00 e R$ 20.000,00, dado que é do setor B > 


P(RINB) 0,20 


P(RI/B) = = 
EM) P(B) 0,425 


= 0,4706 


Sabendo que o funcionário é do setor B (temos 85 funcionários agora), 
houve uma redução no espaço amostral de 200 para 85, número que 
será utilizado no denominador. Logo, perguntamos: qual a chance de 
estar na faixa de renda solicitada? O resultado é 0,4706. 


Como P(R1) = P(R1/B), podemos concluir que os eventos setor e ren- 
da são dependentes. É possível visualizar um exemplo de aplicação dos 
conceitos de independência de eventos por meio do lançamento de uma 
moeda não viciada (não existe preferência para cara ou coroa) três vezes. 
Considere os seguintes eventos: 


A = no primeiro lançamento da moeda sai cara; e 
B = no segundo lançamento da moeda sai cara. 


SAIBA MAIS 


Paraquesejam considerados independentes, arelação de independên- 
cia deve ser válida para todas as intersecções presentes na Tabela 14. 


Considere a seguinte notação: C = cara e R = coroa 


Verifique se é verdadeira a hipótese de que os eventos A e B são inde- 
pendentes. O espaço amostral e os eventos são apresentados a seguir: 


O = £tCCC, CCR, CRC, CRR, RCC, RCR, RRC, RRRJ 
(A) = (CCC, CCR, CRC, CRR) 

(B) = tCCC, CCR, RCC, RCR5 

P(A nB) = 2/8 = % 

P(A) = 4/8 =% 

P (B) = 4/8 = Y 


Portanto, P(A NB) = P(A) - P(B) => 4a = Ya .% OU 


p(4iBy- POB) Já 2.1 ->P(A/B)-P(A)=> 4 = Yo 
PB) U 42 
SAIBA MAIS 


Os resultados que estão em negrito ocorrem no espaço amostral (8) 
somente duas vezes. 


Perceba que os eventos são independentes, pois P(A NB) = P(A) x P(B) 
ou P(A/B) = P(A). 


Vamos ver outros exemplos relacionados a probabilidades para 
compreendermos melhor o que vimos. 


Exemplo 

Um estudante chega atrasado em 40% das aulas e esquece o material 
didático em 18% das aulas. Supondo que sejam eventos independentes, 
calcule a probabilidade de: 


a) O estudante chegar na hora e com material. 
b) Não chegar na hora e ainda sem material. 


Como o exercício afirma que o estudante chega atrasado em 40% das 
aulas, entendemos que a probabilidade de ele chegar atrasado é 40% 
= 0,40; e a probabilidade de ele não chegar atrasado = 60% = 0,60. O 
exercício afirma também que ele esquece o material didático em 18% 
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das aulas, isto é, a probabilidade de que ele esqueça o material é = 18% 
= 0,18; e de que ele não esqueça é =82% = 0,82. 


Logo, para resolvermos a alternativa do exemplo, probabilidade de o es- 
tudante chegar na hora e com material, considerando que os eventos são 
independentes, temos: 


P(chegar na hora e com material) = P(chegar na hora 


n c/ material) = 


P(chegar na hora) - P(c/ material) = 0,60 - 0,82 = 0,492 ou 49,2% 


Já para resolvermos a alternativa b, vamos considerar que: 


P(não chegar na hora e sem material) = P(n chegar na hora n 
s/ material) = 


P(h chegar na hora) - P(s/ material) = 0,40 - 0,18 = 0,072 ou 7,2% 


Exemplo: 

Vamos considerar um pesquisador que estudou o comportamento de 
consumo de bebidas lácteas no Brasil. Após a análise da classe econô- 
mica do consumidor e do principal aspecto determinante da escolha da 
marca, o pesquisador tabulou os dados conforme dispostos a seguir. 


Considerando esses dados, vamos calcular qual a probabilidade de um 
consumidor escolhido: 


a) Priorizar o preço, dado que é da classe alta. 
b) Priorizar a qualidade, dado que é da classe média. 
c) Ser da classe baixa, dado que atribui maior importância ao fator qualidade. 


Com base nos dados da tabela desse exemplo, para priorizar o preço, 
dado que é da classe alta, temos uma probabilidade condicional igual: 


P nl lt 
Pilpreçolniia inha jp O CAE O pro o Aa 
Pp (classe alta ) 98 


Já para priorizar a qualidade, dado que é da classe média, temos uma 
probabilidade condicional dada por: 


P(qualidade tcl édia j==">—"———— = —=0,3621 ou 36,21% 
(qualidade classe média ) FP (EnaAdd) E ou o 


Por fim, para ser da classe baixa, dado que atribuiu maior importância ao 
fator qualidade, o cálculo é feito por: 


P(elasse baixa nqualidad 
P(classe baixa /qualidade )= ro o = 05575 ou 55,15% 
qualidade 


Algumas Regras Básicas de Probabilidade 
Para que você possa aplicar todos os conceitos de probabilidade apren- 


didos até aqui, apresentaremos, por meio da Figura 19, algumas regras 
básicas que irão ajudá-lo. Observe com atenção: 


P(AUB)= P(A) + P(B)-P (ANB) 


eventos 
P(AUB)=P(A)+P(B) | mutuamente 


exclusivos 


P(AN B) = P(A).P(B/ 4) = P(B).P(A/B) 


Pan B) PMA)P(B) io 


if P(A)=1-P(4) 


Figura 19: Regras gerais da probabilidade 
Fonte: Elaborada pelo autor deste livro 


Outra questão que merece destaque, quando falamos de probabilidade, 
é que a probabilidade condicional de A dado B é definida por: 


P(A/ B)= PAOB) 


P(B) 


Resumindo 


Neste Capítulo, você ampliou o seu conhecimento do termo probabilida- 
de ao estudar as abordagens clássicas das frequências relativa e subjetiva 
da probabilidade e conhecer o significado dos termos experimento, es- 
paço amostral e evento. 


Conheceu também a definição dos termos probabilidade condicional e 
probabilidade conjunta, e aprendeu a calcular as probabilidades aplican- 
do as regras da adição e da multiplicação. Para intensificar seu estudo, 
viu esses conceitos aplicados a partir da apresentação de exemplos. 


Caso algum conceito não tenha ficado claro, retome a leitura, pois eles 
serão importantes para a compreensão de novas informações que estão 
contidos nos próximos Capítulos. 
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ATIVIDADES 


Agora que você já entendeu todos os conceitos relacionados aos 
cálculos de probabilidade apresentados, resolva as atividades apre- 
sentadas, a seguir, e, em caso de dúvidas, não hesite em consultar 
o seu tutor. 


1. Considerando que as probabilidades de três fiscais A, Be C, 
que trabalham independentemente, efetivarem uma autuação, 
quando abordam uma obra, são 2/3, 4/5 e 7/10, respectivamen- 
te, se cada um abordar uma obra, qual a probabilidade de que 
pelo menos um deles efetive a multa? 


2. Sendo A e B dois mestres que já estão suficientemente treinados 
em partidas de xadrez e jogam 120 partidas, das quais A ganha 
60, B ganha 40 e 20 terminam empatadas; A e B concordam em 
jogar três partidas. Determine a probabilidade de: 


a) A ganhar todas as partidas. 
b) Duas partidas terminarem empatadas. 
c) Ae B ganharem alternadamente. 


3. Em um período de um mês, 100 funcionários de uma prefeitura 
que trabalham com resíduos tóxicos, sofrendo de determinada 
doença, foram tratados. As informações sobre o método de tra- 
tamento aplicado a cada funcionário e o resultado final obtido 
estão na tabela a seguir: 


TRATAMENTO 


A B 
Dum ou |+| 


Sorteando-se aleatoriamente um desses funcionários, determi- 
ne a probabilidade de ele ter sido: 


a) Submetido ao tratamento A . 

b) Totalmente cur ado. 

c) Submetido ao tratamento A e ter sido parcialmente curado. 
d) Submetido ao tratamento A ou ter sido parcialmente curado. 


CAPÍTULO V 


DISTRIBUIÇÃO DE PROBABILIDADES 
DISCRETAS E CONTINUAS 


Prof. Marcelo Tavares 


Objetivos Específicos de Aprendizagem 
Ao finalizar este Capítulo, você deverá ser capaz de: 
* Identificar e aplicar modelos probabilísticos discretos; 


* Identificar e aplicar modelos probabilísticos contínuos (distribuição 
normal); 


* Saber quando e como utilizar as distribuições amostrais; 
* Calcular e interpretar intervalos de confiança; e 


* Dimensionar amostras para serem utilizadas em pesquisas e projetos. 


Introdução 


Caro estudante, 

Como você progrediu nos conhecimentos básicos de probabilidade, agora ire- 
mos trabalhar com as chamadas distribuições de probabilidades, que auxiliam 
no cálculo de probabilidades e, ainda, nos processos de estimação e de deci- 
são, conforme veremos no próximo Capítulo. Estudaremos as distribuições de 
amostragem e dimensionamento de amostras que, também, serão vistos neste 
Capítulo. Bons estudos e conte conosco para auxiliá-lo sempre que necessário. 


Vamos começar com alguns conceitos preliminares. Para que você tenha 
condições de entender as distribuições, é necessário conhecer bem o 
que é uma variável aleatória*, que pode ser discreta ou contínua. 


SAIBA MAIS 


*Variável aleatória - função que associa valores reais aos eventos de 
um espaço amostral. Fonte: Elaborado pelo autor deste livro. 


Um exemplo de uma variável aleatória (v.a.) discreta é a quantidade de 
ações que tiveram queda em um determinado dia, em uma carteira com- 
posta por cinco ações diferentes. A função será dada por: 
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X = “quantidade de ações que tiveram queda em um determinado dia” 
define uma variável aleatória discreta, que pode assumir os valores O, 
1,2,3,4,5. 


Vamos considerar agora uma situação na qual se verificou o tempo gasto 
por um funcionário público para atender a um contribuinte. A função 
será: 


Y= “tempo gasto por um funcionário público para atender a um con- 
tribuinte” define uma variável aleatória contínua, que pode assumir 
infinitos valores. 


Vamos trabalhar aqui principalmente com as variáveis aleatórias discre- 
tas. Se uma variável aleatória X pode assumir os valores x,, x,,..., X, com 


h 


probabilidades respectivamente iguais a p,, P,,..., Pp, €, Sp 


i=1 


temos então definida uma distribuição de probabilidade*. 


SAIBA MAIS 


*Distribuição de probabilidade - é um tipo de distribuição que des- 
creve a chance associada a valores que uma variável aleatória pode 
assumir ao longo de um espaço amostral. 

Fonte: Elaborado pelo autor deste livro. 


É importante ressaltarmos que a variável aleatória tem notação de letra 
maiúscula e seus possíveis valores são representados por letras minús- 
culas, como utilizamos anteriormente. 

Se a variável X em questão for discreta, sua distribuição é caracterizada 


por uma função de probabilidade (P(X=x)), que associa probabilidades 
não nulas aos possíveis valores da variável aleatória X. 


Distribuições Discretas 


Imagine uma situação na qual somente podem ocorrer dois possíveis 
resultados: “sucesso” e “fracasso”. Veja alguns exemplos: f uma venda é 


* efetuada ou não em uma ligação de call center; 
* um contribuinte pode ser adimplente ou inadimplente; 
* uma peça fabricada tem algum defeito ou não; 


* uma guia recolhida pode ter seu preenchimento ocorrido de forma 
correta ou incorreta; e 


* um consumidor que entra em uma loja pode comprar ou não com- 
prar um produto. 


Essas situações correspondem a variáveis aleatórias dicotômicas que se- 
guem a Distribuição de Bernoulli. Ou seja, se associarmos uma variável 
aleatória X aos possíveis resultados do experimento de forma que X=1 
se o resultado for “sucesso” e X=0 se o resultado for “fracasso”, então 
a variável aleatória X, assim definida, tem Distribuição de Bernoulli, com 
p sendo a probabilidade de ocorrer “sucesso” e q = (1-p) a probabili- 
dade de ocorrer “fracasso”. Observe que q = (1 — p), porque “sucesso” 
e “fracasso” são eventos complementares ou mutuamente excludentes. 


Neste momento você deve saber que quando estamos falando de suces- 
so, devemos relacioná-lo com o objetivo do exercício ou do problema a 
ser resolvido, o que, muitas vezes, pode não ser algo bom. Por exemplo, 
“sucesso” pode ser a constatação de defeito no teste de qualidade de 
uma peça fabricada. 

Ampliando nossa discussão, é importante mencionarmos ainda que a 
função de probabilidade da Distribuição de Bernoulli é dada por: 


ppara x=1, 


P(X=x)=$;q=1-p para x=0 


O para x diferente de O ou 1 


Sendo assim, a média, a variância e o desvio padrão serão obtidos por: 


* Média = p (onde p corresponde à probabilidade de sucesso). 
* Variância = pxq (onde q corresponde à probabilidade de fracasso). 
* Desvio-padrão = raiz (pxq). 


Obter a estimativa de média e desvio padrão torna-se importante, pois 
tais medidas podem ser usadas para caracterizar a situação e também 
para a definir a média e o desvio padrão da distribuição binomial, que 
iremos ver adiante. 


Contextualizando a Distribuição de Bernoulli, temos a seguinte situação: 
a experiência tem mostrado que até fevereiro o motorista que é parado 
em uma blitz tem 60% de chance de estar adimplente em relação ao 
Imposto sobre a Propriedade de Veículos Automotores (IPVA). Temos, 
portanto, uma probabilidade de sucesso (o motorista não estar devendo 
o IPVA) de 0,6 e uma probabilidade de estar devendo de 0,4 (vem da 
diferença q = 1 — 0,6). 


Distribuição Binomial 


Para que uma situação possa se enquadrar em uma distribuição bino- 
mial, deve atender às seguintes condições: 


* são realizadas n repetições (tentativas) independentes; 
* cada tentativa é uma prova de Bernoulli (somente podem ocorrer 
dois possíveis resultados); e 
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* a probabilidade p de sucesso em cada prova é constante. 


Se uma situação atende a todas as condições anteriores, então a variável 
aleatória X = número de sucessos obtidos nas n tentativas terá uma dis- 
tribuição binomial com n tentativas e p probabilidades de sucesso. 


Agora você deve parar a sua leitura e lançar uma moeda 30 vezes para 
cima. Após fazer isso e anotar os resultados, veja se o experimento 
que acabou de fazer se encaixa em uma distribuição binomial (condi- 
ções apresentadas anteriormente). 


Simbolicamente, temos: X — B (n, p) com a interpretação: 


A variável aleatória X tem distribuição binomial (B) com n ensaios e uma 
probabilidade p de sucesso (em c ada ensaio). 


A função de probabilidade utilizada para cálculo de probabilidades, quan- 
do a situação se enquadra na distribuição binomial, será dada por meio 
da seguinte expressão: 


P(X=x)=Cip“q”* onde: 

p: probabilidade de “sucesso” em cada ensaio; 

q =1-p: probabilidade de “fracasso” em cada ensaio; 
é n! 


C, Rel , onde nléo fatorial de n, é 


combinação de n valores tomados xa x 


SAIBA MAIS 


Lembre-se dos conceitos de análise combinatória vistos no segundo 
grau! 


Exemplo 

Vamos considerar que algumas pessoas entram em uma loja no período 
próximo ao dia das mães. Sabemos que a probabilidade de uma pessoa 
do gênero masculino comprar um presente é de 1/3. Se entrarem quatro 
pessoas do gênero masculino na tal loja, qual a probabilidade de que 
duas venham a comprar presentes? 


Se essas quatro pessoas entram na loja e duas delas compram, podemos 
colocar as possibilidades da seguinte forma (C > compra e não-C 5 não 
compra). O espaço amostral associado a essa situação do experimento é: 


C, €, não-C, não-C ou C, não-C, não-C, C ouC, não-C, C, não-C ou não- 
-C, não-C, €, C ou não-C, C, não-C, C ou não-C, C, C, não-C 


Logo, calculando as probabilidades usando as regras do “e” (multiplica- 
ção, pois são independentes) e do “ou” (soma), a probabilidade de 2 
clientes do gênero masculino comprarem presentes é: 


LILA LT AZAR LDloZhla 
= met =. =.— +>.—.—.— +—.—.—.— de=, —e— e += —+—.— 


3333 3333 33333333 333333353 


Agora, vamos calcular utilizando a função de probabilidade apresentada 
anteriormente e verificar que o resultado será o mesmo. 


MP 4 14 43214 U 
PX=9=C]-| [2] = ams DT 202963 ou 29,63% 
dd (5) 5 2(4-2)9'9 212181 81 ii i 


Os valores da média e da variância da distribuição binomial são: 


Média = n.p 
Variância = n.p.q = n.p.(1-p) 


SAIBA MAIS 


Como na binomial são n ensaios de Bernoulli e a distribuição tem 
média p, a média da binomial será n.p. Raciocínio semelhante é feito 
para a variância. 


Exemplo 

Em uma determinada repartição pública, 10% das guias preenchidas es- 
tão incorretas. Essas guias correspondem a uma liberação na qual cinco 
delas devem estar preenchidas conjuntamente. Considere que cada uma 
tem a mesma probabilidade de ser preenchida incorretamente (como se 
houvesse repetição no experimento de retirar guias). 


a) Qual a probabilidade de haver exatamente três guias incorretas nas 
cinco guias para liberação? 


Z 


O “sucesso” é a ocorrência de guias preenchidas incorretamente. 
p=0,1n=5 


P(X=3)=C3-0,1"-0,9=0,0081 


b) Qual a probabilidade de haver duas ou mais guias incorretas nas cin- 
co guias para liberação? 
P(X > 2) = P(X-=2) + P(X=3) + P(X=4) + P(X=5) 
= 1-[P(X=0) + P(X=1)] = 0,0815 
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c) Qual a probabilidade de um conjunto de cinco guias não apresentar 
nenhuma guia incorreta? 


P(X =0)=C501º .0,9º =0,5905 


Antes de prosseguir, desta vez com o estudo da Distribuição de 
Poisson, você deve realizar as Atividades 1 e 2, ao final deste Capítu- 
lo, para aplicar os conhecimentos já adquiridos sobre a distribuição 
binomial. É importante salientarmos que neste Capítulo a resolução 

das atividades será solicitada ao longo do texto para facilitar a sua 
compreensão dos conceitos e de como utilizá-los. Lembre-se de que 
as respostas se encontram no final do livro. 


Distribuição de Poisson 


Você pode empregar a Distribuição de Poisson em situações nas quais 
não se está interessado no número de sucessos obtidos em n tentativas, 
como ocorre no caso da distribuição binomial. Entretanto, esse número 
de sucessos deve estar dentro de um intervalo contínuo, ou seja, o nú- 
mero de sucessos ocorridos durante um intervalo contínuo, que pode 
ser um intervalo de tempo, espaço etc. 


Imagine que você queira estudar o número de suicídios ocorridos em 
uma cidade durante um ano ou o número de acidentes automobilísticos 
ocorridos em uma rodovia em um mês ou, ainda, o número de defeitos 
encontrados em um rolo de arame ovalado de 500m. Essas situações são 
exemplos daquelas que se enquadram na Distribuição de Poisson. 


Note que nos exemplos anteriores não há como você determinar a pro- 
babilidade de ocorrência de um sucesso, mas sim a frequência média 
de sua ocorrência, como dois suicídios por ano, que denominaremos À. 


Em uma situação com essas características, a variável aleatória X = nú- 
mero de sucessos em um intervalo contínuo, terá uma Distribuição de 
Poisson, com | (frequência média de sucesso). Simbolicamente, pode- 
mos utilizar a notação X — P()). 


A variável aleatória X tem uma Distribuição de Poisson (P) c om uma 
frequência mé dia de sucesso ». 


A função de probabilidade da Distribuição de Poisson será dada por meio 
da seguinte expressão: 


x 


P(X =x)= Pa 


Onde: 

e =2,7182 (base dos logaritmos neperianos); e X corresponde à frequ- 
ência média de sucesso no intervalo contínuo que se deseja calcular a 
probabilidade. 


Exemplo 

A análise dos dados dos últimos anos de uma empresa de energia elétri- 
ca forneceu o valor médio de um blecaute por ano. Pense na probabili- 
dade de isso ocorrer no próximo ano: 


a) Nenhum blecaute. 
b) De 2 a 4 blecautes. 
c) No máximo 2 blecautes. 


Note que o exemplo afirma que a cada ano acontece em média um ble- 
caute, ou seja, o número de sucesso ocorrido em um intervalo contí- 
nuo. Verificamos que a variável tem Distribuição de Poisson: 


À 
P(X =x)=e — 
x! 
Veja que aqui não é necessário fazer regra de três, pois as perguntas são 
no intervalo de um ano. Então: ) = 1: 


e 1º 03679. 


a) P(x= 0) =— = 0,3679 ou 36,79% 


O! 
a A rp 
b — — — — di — 
) P(x=9)+P(x=3)+P(x =4) z + 3 + 7 
= 0,1839 + 0,061 + 0,015 
= 0,2599 ou 25,99% 


c) Como já temos os valores de x = O e x = 2 basta calcularmos para x 
= 1 e somarmos os resultados. 


el 0,36791 
no 
Plx <2) = P(x=0) + P(x=1) + P(x=2) = 
0,3679 + 0,3679 + 0,1839 = 0,9197 ou 91,97% 


P(x=D= =(0,3679 ou 36,79% 


Vejamos uma aplicação da Distribuição de Poisson considerando que 
o Corpo de Bombeiros de uma determinada cidade recebe, em média, 
três chamadas por dia. Queremos saber, então, qual a probabilidade de 
a instituição receber: 


a) 4 chamadas em um dia: verificamos que a variável tem Distribuição 
de Poisson, pois temos o número de chamadas (variável discreta) por 
dia (intervalo contínuo). A probabilidade será calculada por meio da 


expressão: 
x 


P(X =x)- Pai 
x! 


SAIBA MAIS 


Como o intervalo em que se deseja calcular a probabilidade é um 
dia, o | será igual a 3. 
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Não é necessário fazer regra de três, pois as perguntas são no inter- 
valo de um dia e tem-se a média de chamadas por dia, então: ) = 3. 
Substituindo-o na expressão, teremos: 


4 
P(X=4) =" =0] 680 


b) Nenhuma chamada em um dia: nesse caso, o intervalo continua sen- 
do um dia. Logo, o lambda ()) continua sendo o mesmo, ou seja, ) = 
3. Substituindo-o na expressão, teremos: 


0 
P(X=0)=€* o = 0,0498 


c) 20 chamadas em uma semana: nesse caso o intervalo em que se 
deseja calcular a probabilidade é de uma semana, ou seja, sete dias. 
Então, em uma semana, a frequência média de chamadas será de 7 
dias vezes 3 chamadas/dia: 


» = 21 chamadas por semana. 


Substituindo os valores, teremos a seguinte probabilidade: 


= 0,0867 
20! 


P(X=20)-=e 


Uma característica da Distribuição de Poisson é que as estatísticas da 
distribuição (média e variância) apresentam o mesmo valor, ou seja, são 
iguais a |. Então, teremos: 


Média = V ariância = 


Antes de discutirmos as distribuições contínuas, vamos aplicar os 
conhecimentos relacionados à Distribuição de Poisson realizando a 
Atividade 3, ao final deste Capítulo. 


Distribuições Contínuas 


Dentre as várias distribuições de probabilidade contínuas, abordaremos 
aqui apenas a distribuição normal, que é muito aplicada em pesquisas 
científicas e tecnológicas. Grande parte das variáveis contínuas de inte- 
resse prático segue essa distribuição, aliada ao Teorema Central do Limite 
(TCL), que é a base das estimativas e dos testes de hipóteses realizados 
sobre a média de uma população qualquer, e garante que a distribuição 
amostral das médias segue uma distribuição normal, independentemen- 
te da distribuição da variável em estudo, como será visto mais adiante. 


Distribuição Normal 


A função densidade de probabilidade da distribuição normal é dada por: 


1 (e) 
fo)=-—= exp *º /,xeR 
oV2x p 
Onde: 
H eo são a média e o desvio padrão, respectivamente, da distribuição de 
probabilidade. 
7 corresponde a aproximadamente 3,1415 e exp a uma função exponencial. 


O gráfico da distribuição normal, utilizando a função mostrada anterior- 


mente e os conceitos vistos nas disciplinas Matemática Básica e Matemá- 
tica para Administradores, é dado por: 


-—a0 u o 
Você encontrará a seguir as principais propriedades da distribuição normal: 


* é simétrica em relação ao ponto x = | (50% abaixo e 50% acima da 
média); 

* tem forma campanular*; 

* as três medidas de posição — média, mediana e moda — se confun- 
dem no valor de x correspondente ao ponto máximo da curva (x = 


= Md = Mo); 


* fica perfeitamente definida conhecendo-se a média e o desvio pa- 
drão, pois outros termos da função são constantes; e 


* toda a área compreendida entre a curva e o eixo x é igual a 1 (concei- 
to da soma de probabilidades no espaço amostral). 


SAIBA MAIS 


*Campanular - relativo à campânula; objeto em forma de sino. Fon- 
te: Houaiss (2009). 
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Portanto, a área sob a curva entre os pontos a e b — em que a < b- repre- 
senta a probabilidade de a variável X assumir um valor entre a e b (área 
escura), como observaremos a seguir. 


Desse modo, você pode associar que, no caso das distribuições contínu- 
as, a área do gráfico corresponde a probabilidades. 


Então, veja a notação utilizada para a distribuição normal: 


Saiba mais 


A variável x tem distribuição normal com média | e variância o. 


Para calcularmos as probabilidades via distribuição normal é necessá- 
rio o conhecimento de cálculo integral para calcular a área sob a curva 
normal entre dois pontos a e b. Assim, procuramos tabelar os valores 
de probabilidade que seriam obtidos por meio da integração da função 
densidade de probabilidade normal em um determinado intervalo. 


A dificuldade para se processar esse tabelamento se deve à infinidade de 
valores que p(média) e o(desvio padrão) poderiam assumir. Nessas con- 
dições, teríamos que dispor de uma tabela para cada uma das infinitas 
combinações de e o, ou seja, em cada situação que se quisesse calcular 
uma probabilidade. 


Para resolver esse problema, podemos obter uma nova forma para a 


distribuição normal que não seja influenciada por py e o. O problema é 
solucionado mediante o emprego de uma nova variável, definida por: 


Xx—u 
6) 


a 


Essa variável transforma todas as distribuições normais em uma distri- 
buição normal reduzida ou padronizada, de média zero e desvio padrão 
um. Então, temos: Z — N(0,1). 


Assim, utilizamos apenas uma tabela para o cálculo de probabilidades 
para qualquer que seja a curva correspondente a uma distribuição normal. 


Portanto, para um valor de x = | em uma distribuição normal qualquer, 


corresponde o valor: 


Parax = yu + o, temos: 


;-X-H H+O-H O 
0) 0) 16) 


= 1 eassim por diante. 


Podemos definir a distribuição normal reduzida ou padronizada como 
sendo uma distribuição da variável Z que apresenta distribuição normal 
com média zero e v ariância 1 (Z — N (0; 1)). 


Na Tabela 15, que apresenta a distribuição normal padronizada, as áreas 
ou probabilidades fornecidas estão entre zero e o valor de Z. 
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Tabela 15: Área sob a curva normal padronizada compreendida 
entre os valores O e Z 


Zz (o) 1 2 3 4 5 6 7 8 9 
0.0 0.0000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359 
0.1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0753 
0.2 0.0793 0.0832 0.0871 0.0910 0.0948 0.0987 0.1026 0.1064 0.1103 0.1141 
0.3 0,1179 0,1217 0,1255 0.1293 0,1331 0,1368 0.1406 0.1443 0,1480 0,1517 
0,4 0.1554 0,1591 0.1628 0.1664 0,1700 0,1736 0.1772 0.1808 0.1844 0,1879 
0.5 0.1915 0.1950 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.2190 0.2224 
0.6 0.2257 0.2291 0,2324 0,2357 0,2389 0,2422 0.2454 0.2486 0,2517 0,.2549 
0.7 0.2580 0.2611 0,2642 0.2673 0.2704 0,2734 0,2764 0.2794 0,2823 0,2852 
0.8 0.2881 0.2910 0.2939 0.2967 0.2995 0.3023 0.3051 0.3078 0.3106 0.3133 
0.9 0.3159 0.3186 0.3212 0.3238 0.3264 0.3289 0.3315 0.3340 0.3365 0.3389 
1.0 0.3413 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 0.3577 0.3599 0.3621 
141 0.3643 0.3665 0.3686 0.3708 0,3729 0,3749 O.3770 0.3790 0,3810 0,3830 
1.2 0.3849 0.3869 0.3888 0.3907 0.3925 0.3944 0.3962 0.3980 0.3997 0.4015 
1.3 0.4032 0.4049 0.4066 0.4082 0.4099 0.4115 0.4131 04147 0.4162 0.4177 
1,4 0.4192 0.4207 0.4222 0,4236 0,4251 04265 0.4279 0,4292 0.4306 0,4319 
1.5 0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406 0.4418 0.4429 0.4441 
1.6 0,4452 0.4463 0,4474 0,4484 0.4495 0,4505 0.4515 0.4525 0,4535 0,4545 
1.7 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4616 0.4625 0.4633 
1.8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0.4686 0.4693 0,4699 0,4706 
1.9 0.4713 0.4719 0.4726 0.4732 0,4738 04744 0.4750 0.4756 0.4761 0,.4767 
2.0 0.4772 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.4812 0.4817 
2,1 0.4821 0.4826 0,4830 0.4834 0.4838 0,4842 0,4846 0.4850 0.4854 0,4857 
2.2 0.4861 0.4864 0,4868 0.4871 0.4875 0,4878 0.4881 0.4884 0.4887 0.4890 
2.3 0.4893 0.4896 0.4898 0.4901 0.4904 0.4906 0.4909 0.4911 0.4913 0.4916 
24 0.4918 0.4920 0.4922 0.4925 0.4927 0.4929 0.4931 0.4932 0.4934 0.4936 
25 0.4938 0.4940 0.4941 0.4943 0.4945 0.4946 0.4948 0.4949 0.4951 0.4952 
2.6 0.4953 0.4955 0,4956 0,.4957 0,4959 0,4960 0.4961 0.4962 0,4963 0,4964 
2.7 0.4965 0.4966 0.4967 0.4968 0.4969 0.4970 0.4971 0.4972 0.4973 0.4974 
2.8 0.4974 0.4975 0.4976 0.4977 0.4977 0.4978 0.4979 0.4979 0.4980 0.4981 
2.9 0.4981 0.4982 0.4982 0.4983 0,4984 04984 0.4985 0.4985 0.4986 0.4986 
3.0 0.4987 0.4987 0.4987 0.4988 0.4988 0.4989 0.4989 0.4989 0.4990 0.4990 
3.1 0.4990 0,4991 0,4991 0,499 0,49922 0,4992 0,4992 0.4992 0,4993 0,4993 
3.2 0.4993 0.4993 0.4994 0.4994 0.4994 0.4994 0.4994 0.4995 0.4995 0.4995 
3.3 0.4995 0.4995 0.4995 0.4996 0,4996 0,4996 0.4996 0.4996 0.4996 0.4997 
3.4 0.4997 0,4997 0.4997 0,4997 04997 04997 0.4997 0.4997 0,4997 0,4998 
3.5 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 
3.6 0.4998 0,4998 0.4999 0,4999 0,4999 0,4999 0.4999 0,4999 0,4999 0,4999 
3.7 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 
3.8 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 
3.9 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 


Fonte: Elaborada pelo autor deste livro 


Veja que na Tabela 15 os valores apresentados na primeira coluna cor- 
respondem à parte inteira e decimal do valor de Z (por exemplo 1,5), 
enquanto os valores da primeira linha correspondem à parte centesimal 
(por exemplo 8). Assim, teremos o valor de Z = 1,58. Já os valores en- 
contrados no meio da tabela correspondem às probabilidades dos res- 
pectivos valores compreendidos entre zero e Z. 


Observe que nessa tabela não é necessário apresentar as áreas ou pro- 
babilidade para valores negativos de Z (ou seja, abaixo da média), devido 
à simetria da curva. 


Para que você possa entender a utilização da distribuição normal, vamos 
considerar a arrecadação de um tributo de uma pequena cidade. Verifi- 
camos que essa arrecadação seguia ao longo do tempo uma distribuição 
normal com média de R$ 60.000,00 e desvio padrão de R$ 10.000,00. 
Procuramos, então, responder aos seguintes questionamentos: 


a) Quala probabilidade de a arrecadação ser maior do que R$ 75.000,00? 


Como a variável arrecadação apresenta distribuição aproxima- 
damente normal com média 60.000 e variância de 10.000? [X— 
N(60.000;10.000?)] e procura-se calcular a P(X > 75.000) = ?, 


primeiramente, precisamos transformar a variável X em Z e, depois, 
substituindo na expressão os valores corretos, teremos: 


p= XTU 75000 — 60000 | 150 
6 10000 


Olhando esse valor na Tabela 15, z = 1,50 (1,5 na primeira coluna e 
o zero na primeira linha), encontraremos no meio da tabela o valor de 
0,4332, que corresponde à probabilidade de z estar entre zero e 1,5, 
como você pode observar a seguir. 


05 , 0,432 


0 . -“ “ - 
15 15 


A área escura da curva mais à esquerda (Curva 1) corresponde a 
P(X>75000), que é a mesma coisa que: 


P(z > 1,50). Então: 
P(z > 1,50) [Curva 1] = P(0<z<+oo)[Curva 2] — 
P(O <z< 1,50) [Curva 3] = 0,5 — 0,4332 = 0,0668. 


Retirou-se a probabilidade encontrada de 0,5, pois esse valor corres- 
ponde à probabilidade de zero até o infinito. 


b) Qual a probabilidade de a arrecadação estar entre R$ 50.000,00 e R$ 


70.000,00? 
P(50.000 < X < 70.000) = ? 
Primeiramente, precisamos transformar a variável X em Z e, depois, 


substituindo a expressão de Z, teremos valores de Z e Z,, relaciona- 
dos aos valores de X =50.000 e X,=70.000: 


[E =D =-1,00 
(o) 10000 
2 x-u 70000 — 60000 = 1,00 


o) 10000 
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0,3413 0,3414 


-1,00 1,00 


Podemos verificar que: 


P(50.000 < X < 70.000) = P(- 1,00 < z < 1,00) = 0,3413 + 0,3413 
= 0,6826 (por inspeção na Tabela 15, considerando z = 1,00 e sime- 
tria, deduzimos a área correspondente a z = -1,00). 


Qual a probabilidade de a arrecadação estar entre R$ 63.000,00 e R$ 
70.000,00? P(63.000 < X < 70.000) = ? 


, -X-H— 63000-60000 , 


fe 


“xp 70000-60000 
SG 10000 


IA 0,3413 0,1179 
= . 
= a Eos E 
1,00 º 03 


%o,3 1,00 


= 1,00 


Z, 


P(63.000 < X < 70.000) = P( 0,30 < z < 1,00) = 
0,3413 - 0,1179 = 0,2234 


Destacamos que existem outras distribuições, tanto discretas quanto 
contínuas, que não foram abordadas neste livro. Portanto, recomenda- 
mos que você procure outras fontes de conhecimento, para começar, 
fazendo uma pesquisa na internet sobre essas distribuições. 


Antes de prosseguir, você deve realizar as Atividades 4 e 5 ao final 
deste Capítulo, e terá a oportunidade de verificar o seu grau de com- 
preensão sobre a distribuição normal. 


Distribuições Amostrais 


Com as distribuições amostrais, você pode inferir propriedades ou medi- 
das de um agregado maior (a população) a partir de um conjunto menor 
(a amostra), ou seja, inferir sobre parâmetros populacionais dispondo 
apenas de estatísticas amostrais. Portanto, torna-se necessário um estu- 
do detalhado das distribuições amostrais, que são a base para intervalos 
de confiança e testes de hipóteses. 


Para que você tenha condições de fazer afirmações sobre um determi- 
nado parâmetro populacional (ex: |), baseadas na estimativa x, obtida 
a partir dos dados amostrais, é necessário conhecer a relação existente 
entre x e |, isto é, o comportamento de X quando se extraem todas as 
amostras possíveis da população, ou seja, sua distribuição amostral. 


Para obtermos essa distribuição de um estimador, é necessário conhe- 
cermos o processo pelo qual as amostras foram retiradas, isto é, se 
as amostras foram retiradas com reposição ou sem reposição. Neste 
material, iremos considerar apenas as situações de amostragens com 
reposição. 


Dessa forma, a partir do comportamento da estatística amostral, po- 
demos aplicar um teorema muito conhecido na estatística: o Teorema 
do Central do Limite (TCL), o qual propõe que, se retirarmos todas as 
possíveis amostras de tamanho n de uma população, independente de 
sua distribuição, e verificarmos como as estatísticas amostrais obtidas se 
distribuem, teremos uma distribuição aproximadamente normal, com 
H, = | (média das medias amostrais igual à média populacional) e va- 


riância das médias , a? (variância das médias amostrais é 


O; =— 


n 
igual à variância da população dividida pelo tamanho da amostra), in- 
dependentemente da distribuição da variável em questão. 


Portanto, considerando a distribuição amostral de médias, quando se 
conhece a variância populacional ou a amostra é grande (n > 30), uti- 
lizamos a estatística z da distribuição normal vista anteriormente, inde- 
pendentemente da distribuição da população. Então, por meio do TCL, a 
estatística será dada por: : X-u 


SAIBA MAIS 


Confira a indicação de um programa para cálculo amostral na seção 
Complementando, ao final deste Capítulo. 


Distribuição t de Student 


Na prática, muitas vezes não conhecemos o o? e trabalhamos com 
amostras pequenas, ou seja, menor ou igual a 30. Assim, conhecemos 
apenas sua estimativa s (desvio padrão amostral). Substituindo s por 
seu estimador s, na expressão da variável padronizada, obtemos a se- 
guinte variável: 


t= (expressão semelhante a Z) 
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Essa variável segue uma distribuição t de Student com (n — 1) graus de 
liberdade*. 


SAIBA MAIS 
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*Graus de liberdade (GL) - é o número de determinações inde- 
pendentes (dimensão da amostra) menos o número de parâme- 
tros estatísticos a serem avaliados na população. Para calcular 
o desvio padrão de n elementos é necessário calcular a média 
primeiro; por isso, nesse caso, os graus de liberdade são iguais a 
n-1. Fonte: Elaborado pelo autor deste livro. 


100 O n-1 corresponde ao divisor do cálculo da variância amostral, ou seja, 


o número de variáveis na amostra que variam livremente na definição da 
estatística. 


A distribuição t de Student apresenta as seguintes características: 


* é simétrica em relação à média, que é zero; 

* tem forma campanular (semelhante à normal); 

* quando n tende para infinito, a distribuição t tende para a distribuição 
normal. Na prática, a aproximação é considerada boa quando n >30; e 

* possui n-1 graus de liberdade. 


Vamos aprender a utilizar a tabela da distribuição t de Student. Na pri- 
meira linha, temos o valor de a, que corresponde à probabilidade (área) 
acima de um determinado valor da tabela. Veja a seguir o conceito de 
o (área mais escura). 


MVP É <SC<PÉETUDTAÉ PPPPPP?SA?P?PPPPPPP | 


0 
to 


Observe que na Tabela 16 temos na primeira coluna os graus de liberda- 
de (GL), no centro da tabela os valores da estatística t de Student, e na 
primeira linha os valores de a. 


Tabela 16: Limites unilaterais da distribuição t de Student 
ao nível a de probabilidade 


a 
GL 0.250 0.200 0,150 0.100 0.050 0.025 0,010 0.005 0.001 
1 1.000 1.376 1.963 3.078 6.314 12.706 31.821 63.656 318.289 
2 0.816 1.061 1.386 1.886 2.920 4.303 6.965 9.925 22.328 
3 0.765 0.978 1.250 1.638 2.353 3.182 4.541 5.841 10.214 
4 0.741 0.941 1.190 1.533 2.132 2.776 3.747 4.604 7.173 
5 0,727 0.920 1,156 1.476 2.015 2.571 3.365 4.032 5.894 
6 0.718 0.906 1.134 1.440 1.943 2.447 3.143 3.707 5.208 
Fá 0.711 0.896 1.119 1.415 1.895 2.365 2.998 3.499 4.785 
8 0.706 0.889 1.108 1.397 1.860 2.306 2.896 3.355 4.501 
9 0.703 0.883 1.100 1.383 1.833 2.262 2.821 3.250 4.297 
10 0.700 0.879 1.093 1.372 1.812 2.228 2.764 3.169 4.144 
1 0.697 0.876 1.088 1.363 1.796 2.201 2.718 3.106 4.025 
12 0.695 0.873 1.083 1.356 1.782 2.179 2.681 3.055 3.930 
13 0.694 0.870 1.079 1.350 1.771 2.160 2.650 3.012 3.852 
14 0.692 0.868 1.076 1.345 1.761 2.145 2.624 2.977 3.787 
15 0.691 0.866 1.074 1.341 1.753 2131 2.602 2.947 3.733 
16 0.690 0.865 1.071 1.337 1.746 2.120 2.583 2.921 3.686 
17 0.689 0.863 1.069 1.333 1.740 2.110 2.567 2.898 3.646 
18 0.688 0.862 1.067 1.330 1.734 2.101 2.552 2.878 3.610 
19 0.688 0.861 1.066 1.328 1.729 2.093 2.539 2.861 3.579 
20 0.687 0.860 1.064 1.325 1.725 2.086 2,528 2.845 3,552 
21 0.686 0.859 1.063 1.323 1.721 2.080 2.518 2.831 3.527 
22 0.686 0.858 1.061 1.321 1.717 2.074 2.508 2.819 3.505 
23 0.685 0.858 1.060 1.319 1.714 2.069 2.500 2.807 3.485 
24 0.685 0.857 1.059 1.318 1.711 2.064 2.492 2.797 3.467 
25 0.684 0.856 1.058 1.316 1.708 2.060 2.485 2.787 3.450 
26 0.684 0.856 1.058 1.315 1.706 2.056 2479 2.779 3.435 
27 0.684 0.855 1.057 1.314 1.703 2.052 2.473 2.771 3.421 
28 0.683 0.855 1.056 1.313 1.701 2.048 2.467 2.763 3.408 
29 0.683 0.854 1.055 1.311 1.699 2.045 2.462 2.756 3.396 
30 0.683 0.854 1.055 1.310 1.697 2.042 2.457 2.750 3,385 
40 0,681 0.851 1.050 1.303 1.684 2.021 2.423 2.704 3.307 
50 0.679 0.849 1.047 1.299 1.676 2.009 2.403 2.678 3.261 
60 0.679 0.848 1.045 1.296 1.671 2.000 2.390 2.660 3.232 
8o 0.678 0.846 1.043 1.292 1.664 1.990 2.374 2.639 3.195 
100 0.677 0.845 1.042 1.290 1.660 1.984 2.364 2.626 3.174 
120 0,677 0.845 1.041 1.289 1.658 1.980 2.358 2.617 3.160 
240 0.676 0.843 1.039 1.285 1.651 1.970 2.342 2.596 3.125 
480 0.675 0.842 1,038 1.283 1.648 1.965 2.334 2.586 3.107 
700 0.675 0.842 1.037 1.283 1.647 1.963 2.332 2.583 3.102 
1000 0.675 0.842 1.037 1.282 1.646 1.962 2.330 2.581 3.098 


Fonte: Elaborada pelo autor deste livro 


Para exemplificar o uso da tabela, considere que desejamos encontrar a 
probabilidade de ser maior do que um valor de t igual a 2,764 trabalhan- 
do com uma amostra de tamanho n = 11. Portanto, teremos 10 graus de 
liberdade, porque GL = n — 1; e, nessa linha, procuraremos o valor que 
desejamos encontrar: 2,764. Subindo na tabela em direção ao a, encon- 
traremos um valor de 0,01 na primeira linha, ou seja, essa é a probabili- 


dade de ser maior do que 2,764 com 10 graus de liberdade. 
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Vamos resolver outro exemplo: 


Encontre o valor de t tal que a probabilidade de t (distribuição) esteja 
entre -te te seja igual a 0,95 com 20 graus de liberdade. Isso pode ser 
representado da forma a seguir: 


t/P(-a<t<b) = õó0,95com 20 dl 


As letras a e b correspondem a valores que a estatística t de Student 
pode assumir. A área do meio corresponde a uma probabilidade de 0,95. 
Então, como a probabilidade total é igual a 1, sobraram 0,05 de proba- 
bilidade para serem divididos pelas áreas do lado direito e esquerdo. 
Observando o valor de a/2=0,025 (área à direita do valor tabelado) na 
tabela de t de Student e com 20 graus de liberdade, encontraremos o 
valor de 2,086. Do outro lado, teremos um valor negativo, pois ele está 
à esquerda da média igual a zero, como você pode ver: 


0 


-2,086 2,086 


Distribuição de Qui-Quadrado 


Retirando uma amostra de n elementos de uma população normal com 
média |1 e variância o?, podemos demonstrar que a distribuição amostral 
da variância amostral segue uma distribuição de x? (qui-quadrado) com 
n-1 graus de liberdade. 


A variável da estatística de qui-quadrado será dada por: 


» (n-Ds 
= 


(0) 


tem distribuição x? com n-1 graus de liberdade. 


Essa distribuição é sempre positiva, o que pode ser comprovado pela 
própria definição da variável. E, ainda, assimétrica à direita, como você 
pode ver no gráfico da distribuição: 


Na Tabela 17, você pode ver como é feita a utilização da distribuição de 


qui-quadrado com graus de liberdade (GL). 


Tabela 17: Limites unilaterais da distribuição de 2 ao nível a de probabilidade 


0.995 0.99 
0.0002 
0.0201 
0.1148 
0.2971 
0.5543 
0.8721 
1.2390 
1.6465 
2.0879 
25582 
3.0535 
3.5706 
4.1069 
4.6604 
5.2294 
5.8122 
6.4077 
7.0149 
7.6327 
8.2604 
8.8972 
9.5425 
10.1957 
10.8563 


12.1982 
128785 
13.5647 
14.2564 
14.9535 
0.7066 22.1642 


37 4848 
67.3275 70.0650 
869233 


0.975 
0.0010 
0.0506 
0.2158 
04844 
0.8312 
1.2373 
1.6899 
21797 
27004 
3.2470 
38157 
44038 
5.0087 
5.6287 
6.2621 
6.9077 
75642 
8.2307 
8.9065 
9.5908 
10.2829 
10.9823 
11.6885 
124011 
13.1197 
13.8439 
14.5734 
15.3079 
16.0471 
16.7908 
244331 
32.3574 
404817 
74.2219 
915726 


095 
0.0039 
0.1026 
0.3518 
07107 
1.1455 
16354 
21673 
2.7326 
33251 
3.9403 
45748 
5.2260 
58919 
6.5706 
7.2609 
7.9616 
86718 
93904 
101170 
10.8508 
11.5913 
12.3380 
13.0905 
13.8484 
14.6114 
15.3792 
16.1514 
16.9279 
17.7084 
184927 
26.5093 
34.7642 
43. 1880 
77.9294 
957046 


Fonte: Elaborada pelo autor deste livro 


Para obter probabilidades ou o valor da estatística de qui-quadrado, você 
irá proceder do mesmo modo que procedeu na tabela da distribuição t 
de Student. Na primeira linha, encontrará os valores de a, na primeira 
coluna os graus de liberdade e no meio da tabela os valores da estatística 


de qui-quadrado. 


09 
0.0158 
0.2107 
0.5844 
1.0636 
1.6103 
2.2041 
28331 
34895 
41682 
48652 
5.5778 
6.3038 
70415 
77895 
8.5468 
93122 
10.0852 
10.8649 
11.6509 
124426 
13.2396 
14.0415 
14.8480 
15.6587 
164734 
17.2919 
18.1139 
18.9392 
19.7677 
205992 
29.0505 
37.6886 
464589 
823581 


075 
0.1015 
0.5754 
1.2125 
1.9226 
26746 
34546 
4.2549 
5.0706 
5.8988 
6.7372 
75841 
84384 
9.2991 
10.1653 
11.0365 
11.9122 
12.7919 
13.6753 
14.5620 
154518 
16.3444 
17.2396 
18.1373 
19.0373 
19.9393 
20.8434 
21.7494 
226572 
23.5666 
244776 
33.6603 
429421 
52.2938 
90.1332 


05 
0.4549 
1.3863 
2.3660 
33567 
43515 
53481 
63458 
73441 
83428 
9.3418 

10.3410 
11.,3403 
12.3398 
13.3393 
14.3389 
15.3385 
16.3382 
17.3379 
18.3376 
193374 
20.3372 
21.3370 
22.3369 
233367 
24 3366 
25.3365 
26.3363 
273362 
28.3361 
29.3360 
393353 
493349 
59.3347 
993341 


0.25 
13233 
27726 
41083 
53653 
6.6257 
7.8408 
90371 
10.2189 
11.3887 
12.5489 
13.7007 
14.8454 
15.9839 
17.1169 
18.2451 
19.3689 
204887 
21.6049 
227178 
23.8277 
24. 9348 
26.0393 
271413 
282412 
293388 
304346 
315284 
32.6205 
33.7109 
34.7997 
45.6160 
56.3336 
66.9815 


109.1412 118 4980124 3421 129.5613 135.8069 140.169 
1006236 109 2197119 3340 130.0546 140. 2326 146.5673 1522113 158.9500 163 6483 


04 
2.7055 
4.6052 
6.2514 
T.ITIA 
9.2363 
10.6446 
12.0170 
13.3616 
14.6837 
15.9872 
17.2750 
18.5493 
19.8119 

21.0641 
22.3071 
23.5418 
24.7690 
25.9894 
27.2036 
284120 
29.6151 
30.8133 
32.0069 
33.1962 
343816 
35.5632 
36.7412 
37.9159 
39.0875 
40.2560 
51.8050 
63.1671 
743970 


0.05 


38415 50239 66349 78794 


0.025 


0.01 


5.9915 73778 92104 


78147 
94877 
11.0705 
12.5916 
14.0671 
15.5073 
16.9190 
18.3070 
19.6752 
21.0261 
22.3620 
23.6848 
24.9958 
26.2962 
275871 
28.8693 
30.1435 
314104 
32.6706 
33.9245 
35.1725 
364150 
376525 
38.8851 
401133 
41.3372 
425569 
437730 
55.7585 
67.5048 
790820 


93484 

11.1433 
128325 
144494 
160128 
175345 
19.0228 
204832 
21.9200 
23.3367 
247356 
26.1189 
274884 
28.8453 
30.1910 
31.5264 
328523 
34. 1696 
354789 
36.7807 
38.0756 
39.3641 
406465 
41.9231 
431945 
44 4608 
457223 
46.9792 
59,3417 
714202 
83.2977 


112449 
132767 
15.0863 
168119 
184753 
20.0902 
21.6660 
23.2093 
247250 
26.2170 
27.6882 
291412 
30.5780 
31.9999 
334087 
348052 
36.1908 
375663 
38.9322 
40.2894 
416383 
42 9798 
44 3140 
456416 
469628 
482782 
495878 
50.8922 
63.6908 
76.1538 
88.3794 


Vamos, então, aprender a olhar a tabela de qui-quadrado? 


Encontre a probabilidade de o valor de qui-quadrado ser maior do que 


3,25 com 10 graus de liberdade, ou seja, P(x? > 3,25)=? 


0,025 


3,25 


a = 0,975 


0.005 
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Para 10 graus de liberdade e um valor de 3,25 (valor aproximado) na 
tabela, encontraremos na parte superior um valor de «= 0,975, que cor- 
responde à probabilidade procurada. 


0,10 


Agora vamos ver outro exemplo. Sabemos que a probabilidade de ser 
maior que um determinado valor de qui-quadrado é igual a 0,90 (P(x? > 
?) = 0,9 com 15 graus de liberdade. Então, o valor do qui-quadrado que 
corresponde à interrogação (2) será obtido na tabela de qui-quadrado. 


Observando a tabela de qui-quadrado com 15 graus de liberdade e um 
valor de a = 0,90 encontraremos no meio dela um valor de 8,55, que 
será o valor de qui-quadrado, cuja probabilidade de ser maior do que ele 
é de 0,90 (a). 


Distribuição F 


A distribuição F ou de Fischer-Snedecor corresponde à distribuição da 
razão de duas variâncias. Temos, então, duas populações que apresen- 
tam variâncias populacionais e delas são retiradas amostras nas quais 
são calculadas variâncias amostrais. A relação entre essas variâncias é 
que nos dá a distribuição F. A estatística da distribuição é apresentada a 
seguir: 


Segue uma distribuição Fcom v = n, -1 ev, = n, -1 graus de liberdade 
para o numerador e o denominador, respectivamente. 


Uma das tabelas da distribuição F de Fischer-Snedecor é apresentada a 
seguir: 


Tabela 18: Limites unilaterais da distribuição F de Fischer-Snedecor ao nível de 
10% de probabilidade 
GL ví 
r 1 2 3 4 5 6 7. 8 9 141 1 12 13 14 15 20 40 6 120 240 
1º 39.864 49.500 53.593 55.833 57.240 58.204 58.906 59.439 59.857 60.195 60.473 60.705 60.902 61.073 61.220 61.740 62.529 62.794 63.061 63.194 
2 8526 9000 9.162 9.243 9.293 9326 9.349 9.367 9381 9392 9401 9408 9415 9420 9425 9441 9466 9475 9483 9.487 
3 5538 5462 5391 5343 5.09 5285 5266 5252 5240 5230 5222 5216 5210 5205 5200 5.184 5160 5.151 5143 5138 
4 4545 4325 4191 4107 4051 4010 3979 3955 3936 3920 3907 3896 3886 3878 3870 3844 3804 3.790 3775 3.768 
5 4060 3780 3619 3520 3453 3405 3368 3339 3316 3297 3282 3268 3257 3247 3238 3207 3157 3.140 3123 3114 
6 3776 3463 3289 3181 3108 3055 3014 2983 2958 2937 2920 2905 2892 2881 2871 2836 2781 2762 2742 2732 
7 3589 3257 3074 2961 2883 2827 2785 2752 2725 2703 2684 2668 2654 2643 2632 2595 2535 2514 2493 2482 
8 3458 3113 2924 2806 2726 2668 2624 2589 2561 2538 2519 2502 2488 2475 2464 2425 2361 2339 2316 2304 
9 3360 3006 2813 2603 2611 2551 2505 2469 2440 2416 2396 2379 2364 2351 2340 2298 2232 2208 2184 2172 
10 3285 2924 2728 2605 2522 2461 2414 2377 247 2923 2302 2284 2269 2255 2244 2201 2132 2107 2082 2069 
1 3225 2860 2660 253 2451 2389 2342 2304 2274 2248 2227 2209 2193 2179 2167 2123 2052 2026 2000 1.986 
12 3477 2807 2606 2480 2394 233 2283 2245 2214 2188 2166 2147 2131 2117 2105 2060 1986 1960 1932 1918 
13 313 2763 2560 2434 2347 2283 2234 2195 2164 2138 2116 2097 2080 2066 2053 2007 1931 1904 1876 1861 
14 3102 2726 2522 2395 2307 2243 2193 2154 2122 2095 2073 2054 2037 2022 2010 1962 1885 1857 1828 1813 
15 3073 2695 2490 2361 2273 2208 2158 2119 2086 2059 2037 2017 2000 1985 1972 1924 1.845 1817 1.787 4771 
16 3048 2668 2462 2333 2244 2178 2128 2088 2055 2028 2005 1985 1.968 1953 1940 1891 1811 1782 1.751 1735 
17 3026 2645 2437 2308 2218 2152 2102 2061 2028 2001 1978 1958 1.940 1925 1.912 1,862 1.781 1.751 1.719 1.703 
18 3007 2624 2416 2286 2196 2130 2079 2038 2005 1977 1954 1933 1916 1900 1887 1837 1754 1723 1691 1674 
19 2990 2606 2397 2266 2176 2109 2058 2017 1984 1956 1932 1912 1894 1878 1865 1814 1730 1699 1666 1.649 
20 2975 2589 2380 2249 2158 209 2040 1999 1965 1937 1913 1892 1875 1859 1845 1.794 1708 1677 1643 1626 
21 2961 2575 2365 2233 2142 2075 2023 1982 1948 1920 1896 1875 1857 1841 1827 1776 1689 1657 1623 1605 
2 2049 2561 2.351 2219 2.128 2060 2008 1967 1933 1904 1880 1859 1841 1825 1811 1.759 1671 1.639 1.604 1.586 
23 2087 2549 2339 2207 2115 2047 1995 1953 1919 1890 1866 1845 1827 1811 1796 1.744 1655 1622 1.587 1.568 
2 2927 2538 2327 2195 2.103 2035 1.983 1941 1.906 1877 1853 1832 1814 1.797 1783 1.730 1641 1.607 1.571 1552 
25 2918 2528 2317 2184 2092 2024 1971 1929 1895 1866 1841 1820 1802 1785 1771 1718 1627 1.593 1.557 1538 
26 2909 2519 2307 2174 2082 2014 1961 1919 1884 1855 1830 1.809 1790 1774 1760 1706 1615 1581 1.544 1524 
27 2901 2511 2299 2165 2073 2005 1952 1909 1874 1845 1820 1799 1780 1764 1749 1695 1603 1569 1531 1,511 
28 289 2503 2291 2157 2064 1996 1943 1900 1865 1836 1811 1790 1771 1754 1740 1685 1592 1,558 1.520 1.500 
29 2887 2495 2283 2149 2057 1988 1935 1892 1857 1827 1802 1781 1762 1745 1731 1676 1583 1.547 1.509 1.489 
30 2881 2489 2276 2142 2049 1980 1927 1884 1.849 1819 1794 1773 1.754 1737 1722 1,067 1.573 1.538 1490 1478 
40 2035 2440 2226 2091 1997 1927 1873 1.829 1.793 1763 1737 1715 1.095 1678 1062 1605 1.506 1467 1.425 1.402 
50 2809 2412 2197 2061 1966 1895 1840 1796 1760 1729 1703 1680 1660 1643 1627 1.568 1465 1424 1379 1354 
60 279 2393 2177 2041 1946 1875 1819 1775 1738 1707 1680 1657 1637 1619 1603 1543 1437 1395 1348 1.321 
80 2769 2370 2154 2016 1921 1849 1793 1748 1711 1680 1653 1629 1609 1590 1574 1513 1403 1358 1.307 1278 
100 2756 2356 2139 2002 1906 1834 1778 1732 1695 1663 1636 1612 1592 1573 1557 1494 1382 1.336 1282 1.250 
120 2748 2347 2130 1992 1896 1824 1767 1722 1684 1652 1625 1601 1580 1562 1545 1482 1368 1.320 1265 1232 
20 2727 2325 2107 1968 1871 1799 1742 1606 1658 1625 1,598 1573 1552 1533 1,516 1451 1.332 1281 1219 1.180 
Fonte: Elaborada pelo autor deste livro 


Note que, no caso da tabela da distribuição F, o valor de a, que corres- 
ponde à área extrema à direita da curva, é apresentado no título da tabe- 
la, pois para cada valor de a temos uma tabela diferente. 


Encontramos uma aplicação prática da distribuição F na verificação da 
homogeneidade das variâncias provenientes de duas populações nor- 
mais e independentes. Então, encontre o valor de F,, cuja probabilidade 
de ser maior do que ele é 0,10 com 5 e 25 graus de liberdade, ou seja, 
P(F>F)=0,10comv =5ev,= 25 gl. 


Como temos a probabilidade de o resultado ser maior do que um valor 
de F, esse valor corresponde ao valor de a. Precisaremos, então, trabalhar 
com a tabela que apresenta 10% de probabilidade no título: a Tabela 18. 


Observando v, = 5 ev, = 25, encontraremos um valor de F igual a 2,092. 


1-a=0,90 


a=o0,10 
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Noções de Estimação 


Um dos principais objetivos da estatística inferencial consiste em esti- 
mar os valores de parâmetros populacionais desconhecidos (estimação 
de parâmetros) utilizando dados amostrais; por exemplo, estimar uma 
média populacional a partir de uma média amostral. Na verdade, qual- 
quer característica de uma população pode ser estimada a partir de uma 
amostra aleatória, desde que esta amostra represente bem a população. 


SAIBA MAIS 


Os parâmetros populacionais mais comuns a serem estimados são: 
a média, o desvio padrão e a proporção. 


A estatística inferencial tem uma alta relevância, já que a utilização de 
dados amostrais está associada à maioria das decisões que um gestor 
ou um pesquisador deve tomar. Consiste em tirar conclusões válidas de 
uma população a partir de sua amostra representativa, tendo isso grande 
importância em muitas áreas do conhecimento. 


A partir de uma amostra de 800 clientes (escolhidos aleatoriamente entre 
todos os clientes que abasteceram na primeira quinzena de um deter- 
minado mês) de um posto de gasolina que possuem carros populares, 
verificou-se que o consumo médio do combustível foi de R$ 200,00 por 
quinzena. 


Reflita sobre a afirmação a seguir. 


Podemos inferir que o consumo médio da população de clientes da pri- 
meira quinzena do mês em estudo, proprietários de carros populares 
que abastecem nesse posto de gasolina, é de R$ 200,00. 


Esta é uma estimativa que chamamos de pontual, ou seja, inferimos so- 
bre a população considerando apenas o valor da estimativa. Essas es- 
timativas por ponto não nos dão uma informação confiável quanto às 
margens de erro que deveriam ser aplicadas ao resultado. Tudo o que 
nós sabemos, por exemplo, é que o consumo médio de gasolina foi esti- 
mado em R$ 200,00 por quinzena, independentemente do tamanho da 
amostra e da variabilidade inerente aos dados. Se fosse usado um tama- 
nho grande de amostra e houvesse pouca variabilidade, teríamos gran- 
des razões para acreditar no resultado; mas não sabemos quão precisa 
é a nossa estimativa quando temos apenas uma estimativa por ponto. 


Entretanto, podemos estimar ou fazer inferências sobre os valores da po- 
pulação usando uma segunda abordagem, chamada de estimativas por 
intervalos ou intervalos de confiança, que da o intervalo dentro do qual 
se espera que esteja o valor da população, com uma dada probabilidade 
ou um nível de confiança. Nesse caso, poderíamos inferir, por exemplo, 
que o consumo de carros populares que abastecem no posto de gasolina 


está no intervalo de R$180,00 a R$ 220,00 e, ainda, afirmaríamos isso 
com, por exemplo, 95% de certeza. 


Como a estimativa por intervalos nos fornece uma informação mais pre- 
cisa em relação ao parâmetro, esta é a melhor forma de se estimar o 
parâmetro populacional. Então, para você estimar parâmetros populacio- 
nais por meio de dados amostrais é necessário o conhecimento da dis- 
tribuição amostral da estatística que está sendo usada como estimador. 


SAIBA MAIS 


Na seção Distribuições Amostrais abordamos esse assunto. Se jul- 
gar necessário, volte lá e releia o conteúdo. 


Em resumo, podemos dizer que a estimativa pontual fornece uma esti- 
mativa única de um parâmetro e que a estimativa intervalar nos dá um 
intervalo de valores possíveis, nos quais se admite que esteja o parâme- 
tro populacional com uma probabilidade conhecida. 


Estimação por Intervalos 


Você irá ver agora que um intervalo de confiança dá um intervalo de va- 
lores, centrado na estatística amostral, no qual julgamos, com um risco 
conhecido de erro, estar o parâmetro da população. 


E o nível de significância que nos dá a medida da incerteza dessa inferên- 
cia. O a geralmente assume valores entre 1 e 10%. 


A partir de informações de amostras, devemos calcular os limites de 
um intervalo, valores críticos, que em (1-a)% dos casos inclua o valor 
do parâmetro a estimar e em a% dos casos não inclua o valor do 
parâmetro, como podemos ver no desenho abaixo. 
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Interpretando-se nessa figura cada segmento como um intervalo de con- 
fiança baseado numa amostra, apenas no terceiro caso o intervalo não 
inclui o parâmetro populacional desconhecido estimado. 


O nível de confiança 1 — a é a probabilidade de o intervalo de confiança 
conter o parâmetro estimado. Em termos de variável normal padrão Z, 
isso representa a área central sob a curva normal entre os pontos —Z e Z. 


oU2 oU2 


lyz O Za/2 


Você pode observar que a área total sob a curva normal é unitária. Se a 
área central é 1 — a, o ponto —z representa o valor de Z, que deixa à sua 
esquerda a área q/2, e o ponto z representa o valor de Z, que deixa à sua 
direita a área q/2. 


Vamos aprender agora a construir o intervalo de confiança para uma 
média quando o desvio padrão populacional é conhecido ou 
a amostra é grande. 


Vamos imaginar a seguinte situação: o Departamento de Recursos Hu- 
manos de uma prefeitura informa que o tempo de execução de tarefas 
que envolvem participação manual varia de tarefa para tarefa, mas que 
o desvio padrão permanece aproximadamente constante, em 3 minutos. 
Novas tarefas estão sendo implantadas na prefeitura. Uma amostra alea- 
tória do tempo de execução de 50 dessas novas tarefas forneceu o valor 
médio de 15 minutos. 


Dispondo desses dados, determine um intervalo de confiança de 95% 
para estimar o verdadeiro tempo médio de execução de uma dessas no- 
vas tarefas. 


Primeiramente, você precisará identificar que o desvio padrão popula- 
cional é conhecido e também a amostra é considerada grande (n > 30); 
então, fará a construção do intervalo de confiança utilizando a média 
amostral; e para obter os limites de confiança, utilizará a curva normal 
padrão Z. 


Como os limites são dados por meio da estatística calculada a partir 
dos dados amostrais e da margem de erro (fornecido pela estatística da 
distribuição multiplicada pelo desvio padrão da distribuição das médias 
amostrais, também chamado de erro-padrão), teremos, nessa situação, 
os limites calculados por meio da seguinte expressão: 


Erro padrão da média, obtido a 


partir do cálculo do desvio 


— (6) . a 
XxX tz,,0-,| onde |6- =— padrão da média de uma 
nx “* Yn amostra aleatória simples 


retirada de uma população. 


Margem de erro 
(e=z,6) 


a x 
” 


Logo, o intervalo de confiança tem centro na média amostral: 
Calculando, teremos: 


l-a = 0,95 D a = 0,05 9 a/2 = 0,025 


Olhando na tabela de Z, encontraremos Z, = 1,96 


fo) 3 
e=2,,'—= 1,96. =08315 
% mn 150 


P(x-e<u<x+e=(I-a) 
P(15—-0,8315<u< 15+ 0,8315) = 0,95 


P(14,168 <u < 15,831) = 0,95 


Interpretação do resultado: em cada grupo de 100 amostras retiradas 
de 50 pessoas, espera-se que, em 95 delas, a média esteja dentro do 
intervalo de 14,168 a 15,831, ou seja, esse intervalo com 95% de certeza 
deve incluir o verdadeiro e desconhecido tempo médio de execução de 
50 tarefas. Observe também que a largura do intervalo de confiança é o 
dobro da margem de erro calculada. 


Antes de continuar a leitura, você deve realizar, ao final deste Capítu- 

lo, a Atividade 6, na qual irá aplicar os conhecimentos relacionados à 

amostra e ao intervalo de confiança. Em caso de dúvida, faça contato 
com seu tutor. 


Dimensionamento de Amostras 


Desenvolvendo a expressão de erro mostrada anteriormente, obteremos 
o tamanho de amostra para estimar a média populacional quando o des- 
vio padrão populacional for conhecido, como mostramos a seguir: 


- 2. mc? 
2.0 (Z2,/) 6 
> NvVn=z Ras > n= di > js 


4 e e e 
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Imagine a seguinte situação: que tamanho de amostra será necessário 
para produzir um intervalo de 95% de confiança para a verdadeira média 
populacional, com erro de 1,0, se o desvio padrão da população é 10,0? 


Substituindo esses valores na expressão, teremos: 


Z? ; 2 2 2 
po L6J0 sg8416=385 


= —— 
e 

Você pode alterar a confiança, e terá um diferente valor de Z e tam- 

bém o erro. Isso irá depender da precisão que você desejar nas suas 


estimativas. 


Quando trabalhamos com proporção de sucesso, podemos substituir a 
variância por p.q (proporção de sucesso vezes a proporção de fracasso) 
da Distribuição de Bernoulli. 
2 AA 
Lap «Pq 
= 2 
R e 

Onde P e 1 correspondem às estimativas de sucesso e de fracasso, 
respectivamente, obtidas a partir de resultados amostrais. 


Vamos ver uma aplicação? 


Um setor da prefeitura que cuida da documentação de imóveis está in- 
teressado em estimar a proporção de pessoas que compram novos imó- 
veis na cidade para melhor dimensionar o setor de atendimento. Com 
esse objetivo, amostrou 80 pessoas do seu cadastro, verificando que 30 
delas teriam comprado imóvel no último ano. Determine o tamanho da 
amostra necessário para estimar com 95% de confiança essa proporção 
de pessoas que compram imóveis novos e com erro máximo de 4%. 


Substituindo os valores, teremos: 


P=5=0,375 e q=1-2=1-0,375=0,625 
2. dã 196 
no Zini  1960350,625 o uses 
e 0,04 
TEXTO COMPLEMENTAR 


Acessando o link que apresentamos a seguir, você poderá fazer cál- 
culos das distribuições de probabilidade discretas ou contínuas, de 
dimensionamento de amostras e de intervalos de confiança. 


* Programa estatístico Bioestat. Disponível em: <http://www.mami- 
raua.org.br/downloads/programas >. Acesso em: 21 jan. 2014. 


Resumindo 


Neste Capítulo, você aprendeu sobre as principais distribuições de pro- 
babilidade, discretas ou contí nuas, e como utilizá-las. Também conheceu 
as distribuições de amostragem e quando utilizá-las; e noções básicas 
de estimação (intervalos de confiança) e dimensionamento de amostras. 
Essas informações serão muito importantes para a compreensão do pró- 
ximo Capítulo. 


ATIVIDADES 


Para verificar se você está compreendendo bem o que apresenta- 
mos neste Capítulo, procure responder às atividades propostas a 
seguir. Se tiver dificuldades para resolvê-las, consulte seu tutor. 


1. No Brasil, a proporção de microempresas que fecham em até 
um ano de atividade é de 10%. Em uma amostra aleatória de 20 
microempresas, qual a probabilidade de 5 terem fechado em 
até um ano após sua criação? 


2. Entre 2.000 famílias de baixa renda e com quatro crianças, con- 
siderando-se que a chance de nascer uma criança do sexo mas- 
culino ou feminino é igual, em quantas famílias se esperaria que 
houvesse: 


a) Dois filhos do sexo masculino. 
b) Um ou dois filhos do sexo masculino. 
c) Nenhum filho do sexo feminino. 


3. A ouvidoria de uma prefeitura recebe em média 2,8 reclama- 
ções/hora, segundo uma Distribuição de Poisson. Determine a 
probabilidade de chegarem duas ou mais reclamações em um 
período de: 


a) 30 minutos. 
b) 1 hora. 
c) 2 horas. 


4. As rendas mensais de funcionários do setor de arrecadação de 
uma prefeitura são normalmente distribuídas com uma média 
de R$ 2.000,00 e um desvio padrão de R$ 200,00. Qual é o valor 
de Z para uma renda X de R$ 2.200,00 e de R$ 1.700,00? 


5. O uso diário de água por pessoa em uma determinada cidade é 
normalmente distribuído com média m igual a 20 litros e desvio 
padrão o igual a 5 litros. 
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a) Que percentagem da população usa entre 20 e 24 litros 
por dia? 

b) Que percentagem usa entre 16 e 20 litros? 

c) Qual é a probabilidade de que uma pessoa selecionada ao 
acaso use mais do que 28 litros? 


« Considere que a despesa mensal com alimentação em restau- 


rantes de comida a quilo para um casal é normalmente distribu- 
ída com desvio padrão de R$ 3,00. Uma amostra de 100 casais 
revelou uma despesa média de R$ 27,00. Determine o intervalo 
de confiança de 95% para essa despesa. 


CAPÍTULO Vl 


TESTE DE HIPÓTESE 


Prof. Marcelo Tavares 


Objetivos Específicos de Aprendizagem 
Ao finalizar este Capítulo, você deverá ser capaz de: 
* Escolher o teste de hipótese adequado; 

* Formular um teste de hipótese; 


* Chegar a uma conclusão sobre uma população a partir dos resultados 
amostrais; e 


* Interpretar os passos e os resultados de um teste de hipótese. 


Introdução 


Caro estudante, 
Vamos conhecer agora os principais testes de hipóteses utilizados na inferência 
estatística. 


Você, como gestor, muitas vezes terá de tomar decisões baseadas na análise de 
dados a partir de um exame de amostras. Portanto, esteja atento ao conteúdo 
que iremos apresentar a você neste último Capítulo, pois ao longo da leitura 
você, certamente, perceberá a importância desse assunto quando tratamos de 
Estatística Aplicada à Administração. Bom estudo! 


Na teoria de decisão estatística, os testes de hipóteses têm uma impor- 
tância fundamental, já que nos permitem dizer, por exemplo, se parâme- 
tros de duas populações (p. ex., médias) são, de fato, iguais ou diferentes 
utilizando, para isso, amostras dessas populações. Sendo assim, a to- 
mada de decisão de um gestor público deve estar baseada na análise de 
dados amostrais a partir de um teste de hipótese. 


Você pode definir as hipóteses a serem testadas, retirar as amostras das 
populações a serem estudadas, calcular as estatísticas delas e, por fim, 
determinar o grau de aceitação de hipóteses baseadas na teoria de de- 
cisão, ou seja, se uma determinada hipótese será considerada provavel- 
mente verdadeira ou falsa. 
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Para você decidir se uma hipótese é provavelmente verdadeira ou falsa, 
ou seja, se ela deve ser aceita ou rejeitada, considerando-se uma deter- 
minada amostra, precisa seguir uma série de passos que são: 


1) Definir a hipótese de igualdade (H,) e a hipótese alternativa (H,) para 
tentar rejeitar H, (possíveis erros associados à tomada de decisão). 
Definir o nível de significância (ay). 

Definir a distribuição amostral a ser utilizada. 

Definir os limites da região de rejeição e de aceitação. 

Calcular a estatística da distribuição escolhida a partir dos valores 
amostrais obtidos e tomar a decisão. 


Você deve tomar a decisão baseado na seguinte regra: se o valor da es- 
tatística da distribuição calculado estiver na região de rejeição, rejeite a 
hipótese nula. Caso contrário, se o valor da estatística calculado caiu na 
região de aceitação, a decisão será que a hipótese nula não poderá ser 
rejeitada ao nível de significância determinada. 


Supondo que você tenha amostras representativas das populações inves- 
tigadas, perceba que pode cometer dois erros antes da tomada de deci- 
são baseada em teste de hipótese: rejeitar indevidamente uma hipótese 
verdadeira (erro tipo |) ou não rejeitar uma hipótese falsa (erro tipo II). 


A importância relativa desses erros depende do contexto. Por exemplo, 
no julgamento de um réu, presume-se sua inocência (hipótese: “réu é 
inocente”). Por princípio jurídico, considera-se pior condenar um réu 
injustamente (erro tipo |) do que absolver, por engano, um réu que de 
fato é culpado (erro tipo Il). Por isso, os procedimentos legais tendem a 
minimizar a chance de cometer o erro tipo |, mas com o efeito colateral 
indesejado de aumentar a probabilidade de cometer o erro tipo II. 


A maneira de reduzir, ao mesmo tempo, a chance de cometer os erros 
tipo | e tipo Il é obter o máximo de evidências ou informações para 
decidir. 


Testes de hipóteses bem executados têm como objetivo minimizar a pro- 
babilidade de cometer esses erros e, portanto, aumentar a chance de 
tomar decisões corretas com base em informação limitada. 


Agora, você verá o detalhamento dos passos na formulação de um 
teste de hipótese. Esteja bem atento! 


Estrutura dos Testes de Hipóteses 


Diversos conceitos serão apresentados ao longo do detalhamento dos 
passos a serem seguidos na formulação de um teste de hipótese. 


1) Formular as hipóteses (H, e H). 
Primeiramente, vamos estabelecer as hipóteses nula e alternativa. Esta 
maneira formal de se apresentar hipóteses origina-se da demonstração 


de teoremas matemáticos, pela redução ao absurdo (reductio ad absur- 
dum). Assim, hipóteses alternativas tendem a expressar a alegação ou in- 
tuição sobre a situação que se supõe verdadeira. Para exemplificar, você 
deve considerar um teste de hipótese para uma média. Então, a hipótese 
de igualdade é chamada de hipótese de nulidade ou H,. 


Suponha que você queira testar a hipótese de que o tempo médio de 
atendimento na retirada de uma guia, em uma prefeitura considerada 
modelo de atendimento, é igual a 50 segundos. Essa hipótese será sim- 
bolizada da seguinte maneira: 


Ho: |: = 50 (hipótese de nulidade). 
Essa hipótese, na maioria dos casos, será de igualdade. 


Se você rejeitar essa hipótese, irá aceitar, nesse caso, outra hipótese, que 
chamamos de hipótese alternativa. Esse tipo de hipótese é simbolizado 
porH, ou H. 


A partir do nosso exemplo, as hipóteses alternativas mais comuns são as 
apresentadas a seguir: 


* Hp > 50 (teste unilateral ou unicaudal à direita). . 
O tempo médio de retirada da guia é superior a 50 segundos (>). E 
importante ressaltar que nesse caso, deve-se reescrever a hipótese 
nula como sendo H,: | < 50. 


* H:p< 50 (teste unilateral ou unicaudal à esquerda). 
O tempo médio de retirada da guia é inferior a 50 segundos (<). Nesse 
caso, deve-se reescrever a hipótese nula como sendo H,: | = 50. 


* Hu 50 (teste bilateral ou bicaudal). 
O tempo médio de retirada da guia pode ser superior ou inferior a 50 
segundos. 


Surge uma dúvida. Qual hipótese alternativa você utilizará? 
A resposta é bem simples. 


A hipótese alternativa será definida por você em razão do tipo de decisão 
que deseja tomar. 


Veja o seguinte exemplo: você inspeciona uma amostra, relativa a uma 
grande remessa de peças que chega a uma prefeitura, e constata que 8% 
delas apresentam defeitos. O fornecedor garante que não haverá mais de 
6% de peças defeituosas em cada remessa. O que devemos responder, 
com auxílio dos testes de significância, é se a afirmação do fornecedor é 
verdadeira. 


As hipóteses que você vai formular são: 
H,: p < 0,06 
H:p > 0,06 
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SAIBA MAIS 


A hipótese alternativa somente pode ser maior, pois o fornecedor 
garante que não haverá mais de 6%. 


2) Definir o nível de significância. 

O nível de significância de um teste é dado pela probabilidade de se co- 
meter um erro do tipo | (ocorre quando você rejeita a hipótese H, e essa 
hipótese é verdadeira). Com o valor dessa probabilidade fixada, você 
pode determinar o chamado valor crítico, que separa a chamada região 
de rejeição da hipótese H,, da região de não rejeição da hipótese H.. 


No desenho, a seguir, as áreas escuras correspondem à significância do 
teste, ou seja, à probabilidade de se cometer o chamado erro tipo I (re- 
jeitar H, quando ela é verdadeira). Essa probabilidade é chamada de a e 
geralmente os valores mais utilizados são 0,01 e 0,05. O complementar 
do nível de significância é chamado de nível de confiança (área clara dos 
gráficos) e é dado por 1 — a. 


Unilateral à direita: 
Ho: yu <50 1l-a 
Hl:u>50 O 


Unilateral à esquerda: 


Ho: u> 50 l-a 
Hl:u<50 a 

Bilateral: 

Ho: u=50 l-a 

HI: 250 Ea E 


3) Definir a distribuição amostral a ser utilizada. 

Você definirá a estatística a ser utilizada no teste em razão da distribuição 
amostral a qual os dados seguem. Se você fizer um teste de hipótese 
para uma média ou diferença entre médias, utilize a distribuição de Z 
ou t de Student. 


SAIBA MAIS 


Note que o conhecimento das distribuições amostrais vistas no Ca- 
pítulo 5 é muito importante. Caso ainda tenha alguma dúvida, volte 
lá e relembre os conceitos das distribuições t, qui-quadrado e F, e 
também como utilizar as tabelas. 


Outro exemplo: se você quiser comparar a variância de duas popula- 
ções, deverá trabalhar então com a distribuição F, ou seja, da razão de 
duas variâncias. 


4) Definir os limites da região de rejeição. 

Os limites entre as regiões de rejeição e de aceitação da hipótese H, 
serão definidos por você em razão do tipo de hipótese H,, do valor de a 
(nível de significância) e da distribuição amostral utilizada. Considerando 
por exemplo um teste bilateral, você terá a região de não rejeição com 
uma probabilidade de 1-a, e uma região de rejeição com probabilidade 


a (0/2 + q/2). 


aU/2 o/2 
Região 


valor obtido da distribuição amostral 


(tabela) 


Por meio da amostra obtida, você deve calcular a estimativa que servirá 
para aceitar ou para rejeitar a hipótese nula. Neste momento, você pode 
estar se perguntando: como irei calcular a estimativa, ou seja, o valor 
da estatística a partir dos dados amostrais? A resposta será dada no 
próximo item. 


5) Tomar a decisão. 

Para tomar a decisão você deve calcular a estimativa do teste estatístico 
que será utilizada para rejeitar ou não a hipótese H,. A estrutura desse 
cálculo para a média, de forma generalista é dada por: 


o ea estimativa — parâmetro 
Estatistica da distribuição = fermento — parineoo) 
erro padrão da estimativa 


Podemos exemplificar pela distribuição de Z, que será: 


Estatística > AR (x - u) 
do teste n) Variabilidade 
(o/ n <m das médias 
Se o valor da estatística estiver na região crítica (de rejeição), você vai 
rejeitar Hj; caso contrário, não rejeite H,, pois quando decidimos por 
“não rejeitar” no teste, concluímos que a evidência disponível não é su- 
ficientemente forte para desacreditarmos a hipótese nula. Mas, ao tomar 
a decisão de não rejeitá-la, podemos cometer o erro tipo Il. O esquema 
a seguir mostra bem a situação de decisão. 
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Ho é rejeitada Ho é rejeitada 


Região 
crítica 


Região 
crítica 


=== 
Região de Região de Região de 
rejeição não rejeição rejeição 


Teste de Hipótese para uma Média 


Quando você retira uma amostra de uma população e calcula a média 
dessa amostra, é possível verificar se uma afirmação sobre o valor dessa 
média é provavelmente verdadeira. Para tanto, basta verificar se a estatís- 
tica do teste estará ou não na região de rejeição da hipótese H,. 


Aqui, você tem duas situações distintas: 


Primeira situação: se o desvio padrão da população é conhecido ou a 
amostra é considerada grande (n >30), a distribuição amostral a ser uti- 
lizada será a Normal Padronizada ou Z e a estatística teste que você 
utilizará será: 


x—u 


Z— 


Q 
Era, 
q 


Onde: 

X : média amostral; 

| : média populacional; 

o : desvio padrão populacional; e 
n: tamanho da amostra. 


Imagine a seguinte situação: um gestor público sabe que, para montar 
um determinado negócio em um bairro de Curitiba, é necessário que 
nele circulem, no mínimo, 1.500 pessoas por dia. Para o tipo de bairro 
em questão, é possível supor o desvio padrão populacional como sendo 
igual a 200 pessoas. Uma amostra aleatória formada por 12 observações 
revelou que passariam pelo local escolhido 1.400 pessoas por dia, em 
média. O negócio pode ser montado ou não? Assuma a = 5% e suponha 
uma população normalmente distribuída. 


Resolução: 
Sempre, em um exercício de tomada de decisão, precisamos formular 
um teste de hipótese, seguindo os passos apresentados: 


1) Formular as hipóteses. 
2) Definir o nível de significância. 


3) Definir a distribuição amostral a ser utilizada. 
4) Definir os limites da região de rejeição (gráfico). 
5) Tomar a decisão. 


Vamos primeiramente retirar os dados do problema: 


n = 12;x=1.400eo = 200 


SAIBA MAIS 


Denominamos esse desvio como populacional, pois, baseados nas 
características do bairro (conhecimento prévio), podemos supor o 
valor do desvio. 


Vamos estabelecer as hipóteses com base no exercício: 


H:t = 1.500 
H;: | < 1.500 (situação em que não vale a pena montar o negócio) 


Caso tenhamos uma média igual a 1.500 pessoas, podemos montar o 
negócio. Mas se aceitarmos a hipótese H,, não devemos indicar a mon- 
tagem do negócio. 


a = 0,05 


A estatística escolhida é Z. Substituindo os valores da amostra e o da 
hipótese H, na estatística de Z, teremos: 


SAIBA MAIS 


Veja que, mesmo com n < 30, o desvio padrão populacional foi 
informado. Quando temos essa situação, devemos sempre usar Z. 


0,05 (RRH,) RNRHo 
64 


O valor Z, = —1,64, que divide a RRH, e RNRH,, foi encontrado na tabela 
Z procurando em seu interior o valor 0,4495. Como Z calculado é menor 
que Z tabelado, ou seja, —1,73 pertence a RRH,, podemos afirmar com 
95% de certeza que transitam menos de 1.500 pessoas por dia no local; 
e assim verificamos que não é viável montar o negócio naquele bairro, 
ou seja, a probabilidade de obtermos uma média amostral de 1.400, 
supondo que a média populacional é no mínimo 1.500 (H,), é tão baixa 
(menor do que 5%) que é preferível apostar que a hipótese alternativa 
seja a correta. 
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SAIBA MAIS 


Valor mais próximo de 0,45, pois este não existe na tabela. 


Agora, antes de prosseguir, você deve resolver a Atividade 1, ao final 
deste Capítulo. Caso tenha alguma dúvida, retorne à situação anterior, 
àquela que resolvemos juntos. 


Segunda situação: se você não conhecer o desvio padrão populacional 
e a amostra for pequena (n< 30), a distribuição amostral a ser utilizada 
será a t de Student e a estatística teste será: 


Onde: 

X : média amostral; 

| : média populacional; 

o : desvio padrão amostral; 

n: tamanho da amostra; e 

gl: graus de liberdade = n — 1 (para consulta na tabela da distribuição t) 


Uma observação importante: quando trabalhamos com amostras gran- 
des, ou seja, n > 30, as distribuições Z e t de Student apresentam com- 
portamentos e valores da e statística próximos. 


Neste momento, releia os passos anteriores para que não fique nenhuma 
dúvida em relação à estrutura de um teste de hipótese, pois iremos tra- 
balhar juntos em situações nas quais iremos aplicar os diferentes testes 
de hipóteses para uma média. 


Após a releitura do conteúdo apresentado, vamos, então, 
analisar as situações. 


Veja, abaixo, a primeira situação em que utilizaremos o teste de hipótese 
para uma média usando a estatística de Z (amostras grandes ou variân- 
cia populacional conhecida). Para resolver essa situação, utilizaremos o 
teste de hipótese para uma média usando a estatística de t de Student 
(amostra pequena e variância populacional desconhecida). 


A Construtora Estrada Forte Ltda. alega ser capaz de produzir concreto 
com, no máximo, 15 kg de impurezas para cada tonelada fabricada. Mas, 
segundo a legislação municipal, caso essa quantidade seja maior do que 
15 kg, a obra deve ser embargada pela prefeitura. Dezenove amostras, 
de uma tonelada cada, revelaram possuir impurezas com média amostral 
igual a 23 kg e desvio padrão igual a 9 kg. Assumindo a = 5% e popula- 
ção normalmente distribuída, a obra deve ser embargada ou não? 


Resolução: 
Retirando os dados do problema: 
n = 19X=23;s = 9; a = 0,05. Vamos estabelecer as hipóteses 


baseando-nos na afirmação do exercício: 


HO:u <15 
H7:u>15 


Caso a hipótese HO seja aceita, a obra não será embargada, pois ela está 
de acordo com a lei. Caso contrário, a prefeitura embarga a obra. 


a = 0,05 


A estatística escolhida é a t de Student. 
Substituindo os valores do problema na expressão, teremos: 


SAIBA MAIS 


Veja que o n foi menor ou igual a 30 (n = 30), foi informado o desvio 
padrão amostral e não foi apresentado o desvio padrão populacional. 
Nessas condições, devemos sempre usar a distribuição t de Student. 


p=["b.DD2. 0 =387 
Cos 9 2,06 
Yn 19 
RNRHo a = 0,05 (RRH,) 
1,734 


O valor t, = 1,734 que divide a RRH, e RNRH, foi encontrado na tabela 
t procurando o grau de liberdade 18 (gl = n-—1 = 19 = 1) ea = 0,05. 
Como t calculado é maior do que t tabelado, ou seja, 1,734 pertence a 
RRH,, podemos afirmar que existem evidências de que a alegação da 
construtora não é verdadeira. Eles não são capazes de produzir concreto 
com, no máximo, 15 kg de impurezas para cada tonelada fabricada. En- 
tão, concluímos que a obra deve ser embargada pela prefeitura. 


Teste de Hipótese para a Razão de Duas Variâncias 


Esse teste de hipótese é utilizado para saber se duas variâncias popula- 
cionais são estatisticamente iguais ou se uma é maior do que a outra. 
Utilizando a distribuição F, poderemos formular o teste de hipótese da 
razão entre duas variâncias e chegarmos à conclusão baseados apenas 
nas estimativas calculadas a partir das amostras. 


As hipóteses H, e H, serão: 
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H: o? = 6; (variâncias das duas populações são iguais). 
> 2 (variância da população 1 é maior do que a da 
H, 0/7 05 população 2). 


Como estamos utilizando um teste unilateral à direita, por questões di- 
dáticas, então, no cálculo da estatística de F, teremos a maior variância 
dividida pela menor variância. Mais à frente você irá utilizar este teste de 
hipótese fazendo a seguinte relação: caso o teste rejeite a hipótese H, 
você irá concluir que uma variância é maior do que a outra e, por conse- 
quência, elas podem ser consideradas iguais. 


A maior variância amostral encontrada será chamada de S$ (provenien- 
te de uma amostra de tamanho n,) e a menor variância amostral será 
chamada (proveniente de amostra de tamanho n,). 


Vamos considerar duas amostras provenientes de duas populações. 
Desejamos saber se as variâncias das populações são estatisticamente 
iguais ou se uma é maior do que a outra. Considere uma significância de 
2,5%. Os resultados amostrais são apresentados a seguir: 


S; = 0,5184 comn, = 14 
S; = 0,2025 com n, = 21 


Então, a variável de teste do teste F será: 


pá 
2 
GS; 
t 2 
% 


Como em H, estamos considerando que as variâncias populacionais são 
iguais, então, na expressão acima, as duas variâncias populacionais irão 
se cancelar. No nosso exemplo, teremos: 


2 
— SL — 0,5184 — 
F s2 — 0,2025 2,56 


O valor tabelado (crítico) da distribuição de F será obtido na tabela da 
distribuição com uma significância de 2,5%. Considerando os graus de 
liberdade iguais a 13 (n, — 1) para o numerador (v ) e 20 (n, — 1) para 
o denominador (v,), chegaremos ao seguinte resultado: valor tabelado 
igual a 2,637. 


0,95 (RNRHo) a = 0,025 (RRH,) 


2,637 


O valor calculado da estatística (2,56) foi menor do que o tabelado 
(2,637), então, o valor calculado caiu na região de não rejeição de H,. 
Assim, não rejeitamos H, e consideramos que a variância da população 
1 estatisticamente é igual à variância da população 2. 


Esse teste servirá de base para a escolha do próximo teste (diferença 
entre médias para amostras independentes), ou seja, a escolha do tipo 
de teste a ser utilizado. 


Teste de Hipótese para a Diferença entre Médias 


Quando queremos comparar a média de duas populações, retiramos 
amostras delas que podem apresentar tamanhos diferentes. Vamos 
considerar as situações de amostras independentes (as populações não 
apresentam nenhuma relação entre si) e de amostras dependentes (uma 
população sofre uma intervenção e é avaliada antes e depois da interven- 
ção para saber se a intervenção teve algum efeito). 


1º caso: amostras independentes e grandes (n > 30) ou variâncias popu- 
lacionais conhecidas. 


2º caso: amostras independentes e pequenas (n < 30), mas que apresen- 
tam variâncias populacionais desconhecidas e estatisticamente iguais. 


3º caso: amostras independentes e pequenas (n < 30), mas que apre- 
sentam variâncias populacionais desconhecidas e estatisticamente 
desiguais. 


4º caso: amostras dependentes. 


Vamos analisar cada uma dessas situações. Lembre-se de que as 
considerações anteriores em relação aos passos para formulação dos 
testes de hipóteses permanecem as mesmas. 


A grande diferença, como você verá, ocorre somente na determinação 
das hipóteses a serem testadas. A hipótese H, será: 


Hº. a d, 


Onde: 

|: média da população 1; 

H,: média da população 2; e 

d, corresponde a uma diferença qualquer que você deseje testar. 


Geralmente, quando queremos saber se as médias das duas populações 
são estatisticamente iguais, utilizamos o valor de d, igual a zero. 


As hipóteses alternativas seguem a mesma linha de raciocínio, como 
você pode visualizar a seguir. 
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É importante ressaltar que, se as hipóteses alternativas forem unilaterais, 
o sinal da hipótese H, será menor ou igual ou maior ou igual, dependen- 
do da hipótese alternativa. 


Todas as outras considerações em relação aos testes de hipótese perma- 
necem as mesmas. Vamos, então, procurar entender cada situação para 
os testes de hipóteses para diferença entre médias. 


1º caso: amostras independentes e grandes (n > 30) ou variâncias po- 
pulacionais conhecidas: como estamos trabalhando aqui com amostras 
grandes ou com desvios padrões populacionais conhecidos, devemos 
trabalhar com a distribuição amostral de Z (raciocínio semelhante ao 
utilizado no teste de hipótese para uma média). Portanto, a estatística do 
teste será dada por: 


7 = (ic A)- (Mu) 


z 2 
Vo, In+6, /n, 
Onde: 


X,: média da amostra 1; 

X,: média da amostra 2; 

m,: média da população 1; 
m,:média da população 2; 

SZ : variância da população 1; 
S; : variância da população 2; 
n,: tamanho da amostra 1: 

n, tamanho da amostra 2. 


Se trabalharmos com amostras grandes, poderemos substituir as vari- 
âncias populacionais pelas variâncias amostrais sem nenhum problema. 


Vamos, então, ver como podemos aplicar o teste de hipótese para a dife- 
rença entre médias nesta situação. 


Foram retiradas amostras do valor recebido em milhares de reais de um 
determinado imposto de duas prefeituras (A e B) de mesmo porte. Os 
resultados são apresentados no quadro, a seguir. Verifique se as duas 
prefeituras têm o mesmo recebimento ou se são diferentes, com uma 
significância de 0,05. 


MARCAS 


CO O O 
Tamanho da amostra 100 100 
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Como fazer: 

Vamos retirar os dados apresentados em nossa situação: 
Amostra A: n = 100; X = 1.160; s = 90 

Amostra B: n = 100; X = 1.140; s = 80 


As hipóteses a serem formuladas são: 
Ho: ta = Hp > ab, = O 
Hot =, 


O teste t deve ser bilateral, já que a preocupação está na verificação do 
fato de a média da prefeitura A ser diferente da média da prefeitura B. 


125 
a = 0,05 
A estatística usada será Z, pois as amostras são grandes (n > 30), apesar 
de não termos os desvios padrões populacionais. Sendo assim, nessa 


situação, ainda utilizamos a estatística de Z. 


Substituindo os valores na estatística, teremos: 


z = 8-X)-( mw) (160-1140)-(0) , 


E 90º 80 
nn, 100 100 


a/2= 0,025 qu/2= 0,025 
(RRH,) (RRHs) 


=1,96 0 1,96 


Como o valor calculado Zc = 1,67 está entre os valores de —1,96 e 1,96, 
valores que dividem a RRH, da RNRH,, verificamos que o valor calculado 
Zc = 1,67 pertence à RNRH, e podemos afirmar, com 95% de certe- 
za, que os valores recebidos pelas duas prefeituras são estatisticamente 
iguais, ou seja, aquela diferença encontrada entre as amostras foi fruto 
do acaso. 


2º caso: amostras independentes e pequenas, mas que apresentam va- 
riâncias populacionais desconhecidas e estatisticamente iguais e: você 
deve trabalhar com a distribuição t de Student, uma vez que as amostras 
que estamos trabalhando são pequenas e as variâncias populacionais 
desconhecidas. 
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Aqui, estaremos considerando que as variâncias populacionais são esta- 
tisticamente iguais, pois essa situação influenciará nos cálculos e, conse- 
quentemente, no processo decisório. 


Para saber se as variâncias podem ser consideradas iguais você deve 
fazer um teste da razão de duas variâncias (teste F), apr esentado 
anteriormente. 


A estatística do teste será dada por: 
Fe (X1 — X2)- (My — mo) 


s/n, +1/n, 


Aqui, aparece um termo novo (Sp). Ele corresponde ao desvio padrão 
ponderado pelos graus de liberdade, ou seja, calculamos um novo desvio 
padrão cujo fator de ponderação corresponde ao grau de liberdade de 
cada amostra. Veja a seguir: 


Para você encontrar o valor tabelado que limita as regiões de aceitação e 
de rejeição na tabela t de Student, o número de graus de liberdade (v) a 
ser usado na tabela será dado por: 


SAIBA MAIS 


Lembre-se de que você pode voltar à tabela t de Student quando 
desejar; ela se encontra no Capítulo 5. 


v=n,+n,-2 


Onde: 
n, en, correspondem aos tamanhos de amostras utilizados. 


Vamos resolver, agora, uma situação na qual temos a comparação 
entre médias de amostras pequenas e variâncias populacionais desco- 
nhecidas e estatisticamente iguais. 


Situação: em uma comparação de aprovação no vestibular de uma im- 
portante universidade, seis estudantes do sexo masculino de colégios da 
rede pública (amostra A) preencheram o gabarito no tempo médio de 
6,4 minutos e desvio padrão de 60 segundos. Outra amostra foi formada 
por cinco estudantes do sexo feminino selecionados aleatoriamente do 
mesmo universo (amostra B), e esse grupo teve um tempo médio de 
preenchimento do gabarito de 5,9 minutos e desvio padrão de 60 se- 
gundos (assuma variâncias populacionais iguais). A Secretaria Municipal 
de Educação deseja saber se existe ou não diferença no tempo médio de 
preencher os gabaritos de acordo com o sexo dos estudantes para definir 
se há necessidade de se fazer treinamentos específicos para cada sexo ou 


um mesmo treinamento para ambos; e assim, poder reduzir esse tempo 
e melhorar a performance dos estudantes da rede pública no vestibular. 


Resolução: 
Retirando os dados do nosso exemplo, teremos: 


Amostra A:n = 6; = 6,4;s=1 
Amostra B:n = 5;=5,9;s=1 


As hipóteses a serem formuladas são: 
Ho ta = > ty-h>0 


O teste t deve ser bilateral, já que a atenção está voltada para a preocu- 
pação em se constatar se, de fato, ocorre diferença no tempo entre os 
estudantes do sexo masculino ou feminino. 


a = 0,05 


A estatística usada será t, pois as amostras são menores ou iguais a 30 
(n < 30) e a variância populacional é desconhecida. Além disso, con- 
sideramos que as variâncias populacionais são estatisticamente iguais, 
informação que é dada no problema analisado. 


SAIBA MAIS 


Caso isso não seja informado no problema, você deve fazer um tes- 
te de hipótese para comparar as variâncias populacionais com base 
nas variâncias amostrais, como vimos anteriormente. 


Substituindo os valores nas expressões, teremos: 


= (n,—1Dsi +(m—1).s, [5 +41? 
e n, +n, —2 6+5-2 
G ++ Eu -4,) 6,4 - 5,9)-(0) — 
so Je HR a = eos » 
Plan, 6 5 


v=n+n,-2=6+5-2=9 (grau de liberdade) 


au/2= 0,025 o/2= 0,025 


-2.262 n 2.262 
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O valor t, = 2,262 que divide a RRH, e RNRH, foi encontrado na tabela 
t procurando o grau de liberdade 9 e a = 0,025. Como t calculado está 
entre os valores que dividem a região de não rejeição de H,, ou seja, 0,82 
pertence à RNRH,, podemos afirmar com 95% de certeza que o tempo 
de preenchimento dos estudantes e das estudantes é provavelmente o 
mesmo. Então, a prefeitura deve fazer o treinamento independentemen- 
te do sexo dos estudantes, ou seja, o mesmo treinamento para todos. 


Antes de analisar o terceiro caso, realize a Atividade 2, 
ao final deste Capítulo. 


3º caso: amostras independentes e pequenas, mas que apresentam va- 
riâncias populacionais desconhecidas e estatisticamente desiguais: a di- 
ferença dessa situação para a anterior é que você agora considera que as 
populações apresentam variâncias estatisticamente desiguais. Para saber 
se elas são estatisticamente desiguais ou diferentes, você deve fazer um 
teste de hipótese para a razão de duas variâncias, visto anteriormente 
nesta Unidade. Também utilizaremos aqui a estatística do teste a partir 
da distribuição t de Student. Essa estatística será dada por: 


(X1-X2)-(H,— po) 


À 2 
Vs, In +s, /n, 


Outra diferença está no cálculo do número de graus de liberdade, pois, 
nessa situação, utilizaremos uma aproximação que é dada pela expres- 
são a seguir: 


rs 


(s /n, que EA 
(sé In) | (in) 


n—1 n,—1 


v=gl= 


Se esse valor calculado apresentar valores decimais, você deve fazer o 
arredondamento para um número inteiro. 


Vamos resolver, a seguir, outra situação. 


Situação: uma prefeitura deseja reduzir seus custos com combustíveis. 
Não confiando nas especificações do fabricante, já que as condições de 
uso dos veículos não são ideais, a prefeitura deseja saber se duas mar- 
cas de carro apresentam o mesmo consumo ou se uma delas é mais 
econômica. Para tomar a decisão acerca de qual comprar, foi analisada 
uma amostra de 22 automóveis das duas marcas, obtendo o resultado 
apresentado, a seguir. Seria possível afirmar que o carro Andaluz é mais 
econômico, isto é, que apresenta uma média populacional inferior a do 
Reluzente? Assuma a = 5% e população normalmente distribuída. 


TAMANHO DA MÉDIA DE 
AMOSTRA CONSUMO 


AUTOMÓVEL DESVIO PADRÃO 


12 unidades 14 km/I 2 km/l 
10 unidades 15 km/I 4 km/l 


Resolução: 

Nessa situação, faremos um teste de hipótese para diferença entre mé- 
dias populacionais. Como as amostras são pequenas, precisamos saber 
se as variâncias populacionais são estatisticamente iguais ou não. Para 
isso, vamos testá-las por meio de teste de F. As hipóteses são: 


so. =0; 

Bo so a = 0,05 
2 

RE RR 
s, 4 


Como estabelecemos utilizar o teste unilateral no cálculo de F, teremos, 
então, a maior variância dividida pela menor variância. As variâncias po- 
pulacionais não estão presentes na fórmula, devido a, na hipótese H, 
serem consideradas iguais e, assim, se cancelarem. 


0,95 (RAH,) 


a = 0,05 (RRH.) 


2,896 


O valor 2,896 foi encontrado na tabela F de 5% com grau de liberdade 9 
para o numerador e 11 para o denominador. Como F > 2,896, rejeita- 
-se H, e, portanto, as variâncias populacionais são estatisticamente desi- 
guais, ou seja, uma é maior do que a outra. 


Agora, vamos testar as médias populacionais: 


Fl = 0 


H,: Eeaidalaa < linda 
= 0,05 


andaluz - ain = Edi - Ee atidisé 
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Como as amostras são independentes, pequenas e com variâncias popu- 
lacionais estatisticamente desiguais, usaremos a estatística t. 


Vamos encontrar o grau de liberdade: 


2 
Ro o) 
p= ta MrJo MZ 10) 370 3 o 99=13 
(é) (é) [5] (e) 0,01+028 0,29 O 
Ur) Ama) MZ) O) 
na-l np-l o! 9 


t= (x, —Xp )- a Es H reluzente ) (14-15)-(0) Be) as —0,72 


4,4% Alo 1,39 
n, Na, 12 10 


a =0,05 0,95 
(RRH,) (RNRHo) 


-1,711 0 


O valor t, = —1,771, que divide a RRH, e a RNRH,, foi encontrado na ta- 
bela t procurando o grau de liberdade 13 e a = 0,05. Como t calculado 
(t = 0,72) pertence à RNRH,, podemos afirmar, com 95% de certeza, que 
o consumo dos carros Andaluz e Reluzente é o mesmo, ou seja, tanto faz 
a prefeitura comprar uma marca ou outra. 


Antes de passarmos ao estudo do quarto caso, resolva a Atividade 3, 
ao final deste Capítulo. Dessa forma, você poderá aplicar os 
conhecimentos sobre a diferença entre médias. 


4º caso: amostras dependentes: sabemos que amostras dependentes 
ocorrem quando fazemos uma intervenção e desejamos saber se os re- 
sultados antes dessa intervenção são iguais aos resultados depois dela. 
Um ponto importante, nessa situação, é que são calculadas, primeira- 
mente, as diferenças de antes e de depois. Essas diferenças são chama- 
das de d.. 


Então, você pode ver que: 


d, = valor antes — valor depois 


Com base nessas diferenças (d), você irá calcular a média (D) e o desvio 
padrão delas (S,). 


A Td? 
d, E > ') 
5. A e D,di- p: 

= = Sa — del 


n-1 


Veja que essas fórmulas são iguais as do cálculo da média e do desvio 
padrão apresentados anteriormente. Nesse caso, no lugar da variável x 
são utilizados os valores de di (diferenças). 


Com esses valores a estatística teste será dada por: 
| D-do 
Sp / Jn 


O valor de n corresponde ao número de diferenças calculadas; e o grau 
de liberdade para ser olhado na tabela t de Student será dado por n — 1. 


Vamos resolver uma situação em que trabalharemos com o caso de 
amostras dependentes. 


Situação: em um estudo procurou-se investigar se a redução do valor de 
uma gratificação no salário iria diminuir a produtividade dos funcionários 
de uma prefeitura, considerando uma escala de produtividade de O a 12. 
A tabela a seguir dá os resultados de pessoas selecionadas anteriormen- 
te. No nível de 5% de significância, teste a afirmação de que a redução 
do valor da gratificação reduziu a produtividade, ou seja, que a diferença 
entre antes e depois deve ser maior do que zero. 


PESSOA A 


) (c [D) E F G H 
nm [Ge [6590 [ma[15[ 64 | Ga [136] 


eo [6a [2a [ia [es [us fes [aa (oo 


Primeiramente, vamos montar as nossas hipóteses: 


Ho ip = O 
e 


Veja que as escolhas dessas hipóteses estão associadas ao que queremos 
testar. No caso da hipótese H,: 4, = 0, estamos testando que as médias 
das diferenças de antes menos depois são iguais a zero, ou seja, que a re- 
dução no valor da gratificação não interferiu na produtividade (a produ- 
tividade foi a mesma), já que estamos avaliando os mesmos indivíduos. 
No caso da hipótese H : 4, > 0, estamos testando se os valores de antes 
eram maiores do que os valores de depois da redução da gratificação, ou 
seja, se esta diferença de antes menos a de depois for maior do que zero, 
indica que antes da intervenção os funcionários tinham uma produtivida- 
de maior do que depois. 


Poderíamos testar também, dependendo do caso, as hipóteses 
H:u,<0ouH:u= oO. 


Consideramos um a = 0,05. 
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Para calcularmos os valores de D e S,, devemos, primeiramente, calcu- 
lar as diferenças entre os valores de antes menos os de depois de cada 
indivíduo e com essas diferenças calcular a média das diferenças (D) e o 
desvio padrão das diferenças (S,) para utilizá-los na expressão de t para 
amostras dependentes. Os resultados das diferenças são apresentados 
a seguir: 


PESSOA 


[5) E D) E F G H 
Dome [oc[65[ 0 [wa[in5[ 64 [6a [ué 


[sema fea[2a [ia [os [as [os faa [2] 


Diferença 02141 | 16 |18| 32 2 2,9 
(antes — depois) 


Como as amostras são dependentes, usaremos a estatística t da seguinte 
forma: 


= D-do 312500 
Sp/Nn 2,9114/N8 


QNRHO NE ÃO 
à (RRH,) 


0 1,895 


O valor t, = 1,895, que divide a RRH, e a RNRH,, foi encontrado na tabe- 
la t quando procurávamos o grau de liberdade, 7 graus de 

liberdade (n —1, onde n é o número de indivíduos avaliados) e a = 0,05. 
Como t calculado (t = 3,03) pertence à RRH,, podemos considerar que 
os valores de produtividade eram maiores antes, ou seja, pioraram e, 
assim, a redução na gratificação influenciou na produtividade dos fun- 
cionários da prefeitura. 


Teste de Hipótese para a Diferença entre Proporções 


Em diversas situações, o que nos interessa é saber se a proporção de 
sucessos (evento de interesse) em duas populações apresenta a mesma 
proporção ou não. Nesse caso, os dados seguem uma Distribuição de 
proporção Bernoulli com média p e variância pq. Portanto, a expressão da 
estatística teste (no caso utilizaremos a distribuição de Z) será dada por: 


SAIBA MAIS 


Vimos sobre a Distribuição de Bernolli no Capítulo 5. Você pode 
retomar lá esse conceito. 


- CPP) P) 
Pd, Pd. 
nm A, 
Onde: 
P, e P, : correspondem à proporção de sucesso nas amostras 1 e 2, 
respectivamente; e 
p, € p,: correspondem à proporção de sucesso nas populações 1 e 2, 
respectivamente. 


SAIBA MAIS 


Você deve se lembrar de que a proporção de fracasso (q) é dada por 
um menos a proporção de sucesso. 


Vejamos como aplicar o teste da diferença de proporções. 


Situação: uma empresa de pesquisa de opinião pública selecionou, ale- 
atoriamente, 500 eleitores do Estado da Bahia e 600 do Estado de Per- 
nambuco, e perguntou a cada um deles se votaria ou não no candidato 
Honesto Certo nas próximas eleições presidenciais. Responderam afir- 
mativamente 80 eleitores da Bahia e 150 de Pernambuco. Existe alguma 
diferença significativa entre as proporções de eleitores a favor do candi- 
dato nos dois estados? Use o nível de significância igual a 6%. 


Como fazer: 


Bahia: n=500; PD = Ae 0,16; q = 0,84 
500 
150 


Pernambuco: n= 600; )=— = 0,25; q4= 0,75 
600 
Vamos estabelecer as hipóteses: 


Ho: Pe=P,>Ps;-P,=0 
H:p=P>P-Pp,=O 


Aqui, seguem as mesmas considerações vistas anteriormente para a for- 
mulação das hipóteses. 


a= 0,06 


A estatística usada será Z. 
(Ps - Pp) (p; - pp) e (016 = 0,25)-(0) 
Pas 5 Pr4p [a] M (e) 
np np 500 600 


—0,09 e 
+/0,0002688+ 0,0003125 0,024 


É = 
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OL 


-1.88 n 1.88 


O valor 1,88 foi encontrado no interior da tabela Z procurando 0,4699. 


SAIBA MAIS 


Veja que 0,47 não existe na tabela, então, optamos pelo valor mais 
próximo. 


Como Z calculado está na região de rejeição de H, (menor que —1,88), 
rejeitamos H, e, portanto, podemos afirmar com 94% de certeza que 
existe diferença significativa entre as proporções de eleitores a favor do 
candidato nos dois estados. 


Teste do Qui-Quadrado de Independência 


O teste do qui-quadrado de independência está associado a duas vari- 
áveis qualitativas, ou seja, a uma análise bidimensional. Muitas vezes, 
queremos verificar a relação de dependência entre as duas variáveis qua- 
litativas a serem analisadas. 


Nesse caso, procuramos calcular a frequência de ocorrência das caracte- 
rísticas dos eventos a serem estudados. Por exemplo, podemos estudar a 
relação entre o sexo de pessoas (masculino e feminino) e o grau de acei- 
tação do governo estadual (ruim, médio e bom). Então, obteremos, por 
exemplo, o número de pessoas (frequência) que são do sexo feminino 
e que acham o governo bom. Todos os cruzamentos das duas variáveis 
são calculados. 


Vamos apresentar a você, como exemplo, os possíveis resultados da si- 
tuação sugerida anteriormente (dados simulados). 


GRAU DE ACEITAÇÃO 


SEXO RUIM MÉDIO ToTAL 


EE ES RES E EE 
EE SS RE CDS E 


Podemos determinar o grau de associação entre essas duas variáveis, ou 
seja, determinar se o grau de aceitação do governo depende do sexo ou 
se existe uma relação de dependência. 


As hipóteses a serem testadas são: 


H,: variável linha independe da variável coluna (no exemplo anterior, o 
grau de aceitação independe do sexo das pessoas). 
H,: variável linha está associada à variável coluna (no exemplo anterior, 
o grau de aceitação depende do sexo das pessoas). 


A estatística de qui-quadrado será dada por meio da seguinte expressão: 


11=5) (fo,- fe) (fo - fe) ” (fo, - fe; + 


Ni , Moro fe 
i=1 Je; fe, fe, fe, 


Onde: 
k corresponde ao número de classes (frequências encontradas). 


Você pode verificar que fo corresponde à frequência observada, ou seja, 
ao valor encontrado na tabela de contingência. 


Já fe corresponde à frequência esperada caso as variáveis sejam indepen- 
dentes. Por causa dessa definição, o cálculo da frequência esperada (fe) 
será obtido por: 


E (total linha) (total coluna) 
total geral 


Nesse caso, os graus de liberdade (v), para que possamos olhar a tabela 
de qui-quadrado, são dados por: 


v = (h-1) (k-1) nas tabelas com h linhas e k colunas 
(no exemplo anterior: v = (2-1) x (3-1) = 2 graus de liberdade). 


Então, para cada célula da tabela de contingências, você irá calcular a 
diferença entre fe e fo. Essa diferença é elevada ao quadrado para evitar 
que as diferenças positivas e negativas se anulem. A divisão pela frequên- 
cia esperada é feita para obtermos diferenças em termos relativos. 


Vamos entender melhor o teste de qui-quadrado do tipo independên- 
cia por meio da análise de outra situação. 


Situação: o gestor de uma prefeitura deseja saber como seus funcioná- 
rios atuam no uso da ferramenta MSN durante o trabalho. Para realizar 
um programa de conscientização, ele precisa saber se o fato de os fun- 
cionários usarem pouco ou muito o MSN durante o trabalho depende do 
sexo das pessoas; e com essa informação, pode definir se fará programas 
de conscientização para homens e mulheres de forma separada ou em 
conjunto (um único programa). Para testar essa hipótese, foram selecio- 
nados, ao acaso, 96 funcionários de ambos os sexos que usam pouco 
ou muito o MSN. Verifique, com uma significância de 5%, a hipótese do 
gestor público. 
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Uso DO MSN 


Resolução: 
Definindo primeiro as hipóteses H e H.. 


H,: uso do MSN independe do sexo. 
H,: uso do MSN depende do sexo. 


Agora, iremos calcular as frequências esperadas, que são os valores que 
estão entre parênteses. Confira os cálculos das outras frequências espe- 
radas cujos valores (fe) aparecem entre parênteses. 


Uso Do MSN 


SEXO Pouco MuiTo ToTAL 


EEE ES 56.24 4 


96 


Agora, basta substituir os valores das frequências esperadas e observa- 
das de todas as classes. 


qi Vert + Go) 40-42) ou 


..... 


ETR 42 , 


O valor do grau de liberdade é apresentado a seguir: 
v= (2-1). 0-9)=18 


Considerando um a = 0,05 e olhando na tabela de qui-quadrado para 1 
grau de liberdade, teremos: 


I-o= 0,95 (RNRHo 


Como o valor calculado (0,914) foi menor do que o tabelado (3,841), 
então aquele caiu na região de aceitação de H,. Portanto, não temos 
indícios para rejeitar a hipótese H,, ou seja, o uso do MSN independe 
do sexo dos funcionários. Dessa forma, o gestor pode fazer um único 
programa de conscientização tanto para homens quanto para mulheres. 


Associação entre Variáveis 


Para verificar o grau de relacionamento entre duas variáveis, ou seja, O 
grau de associação entre elas, devemos estudar um coeficiente chamado 
de coeficiente de correlação. Existem vários deles; e cada um é aplicado 
em casos específicos. Aqui, iremos estudar o coeficiente de correlação 
de Pearson (r). 


Para que possamos ter uma ideia da associação entre as variáveis que 
estamos estudando, iremos utilizar um gráfico de dispersão como o 
apresentado a seguir, pelo qual podemos constatar a relação entre as 
variáveis: o peso de um pacote e o seu tempo de entrega. 


Tempo de entrega (h) 


0 500 1000 1500 2000 2500 3000 
Peso (Kg) 


As estimativas de correlação podem ser positivas (à medida que a vari- 
ável x aumenta a variável y também aumenta) ou negativas (à medida 
que a variável x aumenta a variável y diminui), como você pode ver nos 
exemplos a seguir: 


* Nacorrelação positiva, podemos ter como exemplo a relação entre a 
nota (eixo y) e o tempo dedicado aos estudos de estatística aplicada 
à administração, ou seja, quanto maior o tempo de estudo, provavel- 
mente maior será a sua nota. 


* Já em relação à correlação negativa, podemos ter como exemplo a 
relação entre a quantidade de batimentos cardíacos (eixo y) e a idade 
(eixo x), ou seja, quanto maior a idade menor a quantidade de bati- 
mentos cardíacos. 


A representação gráfica das correlações positivas e negativas é mostrada 
nos gráficos a seguir: 
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Positiva 


8 

7 . 

6 

5 

Y4 º º 

3 e 

2 

1 e 

(o) T T T T T 1 
0 1 2 3 4 5 6 

x 
Correlação Positiva Correlação Negativa 


O coeficiente de correlação de Pearson (r) nos dá uma ideia da variação 
conjunta das variáveis analisadas e pode assumir valores de —1 a +1. 


Veja a expressão por meio da qual podemos obter o coeficiente de cor- 
relação de Pearson: 


SAIBA MAIS 


No exemplo que iremos trazer mais adiante, você encontrará a ex- 
plicação dos somatórios dessa expressão. Não se preocupe! 


Say -LEAA 


5-2] [5 E 


A ocorrência de um valor de r = O ou próximo de zero indica apenas 
que não há correlação linear entre as variáveis, porque pode existir uma 
forte relação não linear entre elas, como no gráfico de dispersão do peso 
do pacote e respectivo tempo de entrega, onde temos uma relação não 
linear. 


Vejamos as características que o coeficiente de correlação de Pearson 
pode apresentar: 


* seus valores estão compreendidos entre -1 e 1; 

* seo coeficiente for positivo, as duas características estudadas ten- 
dem a variar no mesmo sentido; 

* seo sinal for negativo, as duas características estudadas tendem a 
variar em sentido contrário; 


* a relação entre duas variáveis é tanto mais estreita quanto mais o 
coeficiente se aproxima de 1 ou —1; e 

* ovalor de r é uma estimativa do parâmetro p (rho), da mesma forma 
que a média x é uma estimativa de . Para testar se o valor de r é es- 
tatisticamente igual ao parâmetro de uma população em que p (rho) 
= 0, podemos empregar o teste t definido por: 


=P. Yn-—2 
V1=7º 


onde: 

n : número total de pares; 

2: coeficiente de correlação ao quadrado; 

p : parâmetro da correlação populacional (considerado igual a zero); e 
gl: graus de liberdade (para consulta na tabela t) = n-2. 


A hipótese H, será de que p (rho) = 0 e a hipótese H,, que iremos utili- 
zar, será de que p (rho) = 0. 


Vamos analisar a situação, a seguir, para entender melhor esse 
coeficiente. 


Situação: 

Vamos determinar o coeficiente de correlação entre a porcentagem de 
aplicação do total de recursos com Educação em uma prefeitura (x) e o 
grau de conhecimento médio da população da cidade (y). Para isso, fo- 
ram avaliadas dez cidades. 


PORCENTAGEM DE APLICAÇÃO DO 
TOTAL DE RECURSOS COM EDUCAÇÃO 
EM UMA PREFEITURA 


GRAU DE CONHECIMENTO MÉDIO 
DA POPULAÇÃO DA CIDADE 


Para obtermos a estimativa de correlação, precisamos calcular todos os 
somatórios presentes na expressão: 
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Calculando os somatórios, teremos: 
Somatório de todos os valores de x: 


2y YO PY acsanã Yo 70 + 40 mes + 12? = 9.027 


Somatório de todos os valores obtidos por meio do produto dos valores 
de x e y de cada cidade: 


EM VER É DEV trios + XoYo E 
»x,y,=5.70+10.40+...... + 90.12 = 7.470 


Substituindo esses valores na expressão, teremos: 


O valor de r = -0,7877 indica que existe uma associação inversa (nega- 
tiva) e de média magnitude entre a variação da porcentagem de aplica- 
ção do total de recursos com educação em uma prefeitura e o grau de 
conhecimento médio da população da respectiva cidade, ou seja, pro- 
vavelmente os recursos destinados à educação não estejam sendo bem 
empregados, já que a relação foi negativa quando se esperava que fosse 
positiva. 


Para verificarmos se esse resultado é significativo, vamos fazer o seguin- 
te teste de hipótese: 


Iremos calcular a estatística por meio da expressão: 


r=p 
=D. 
Vl=7? 


Substituindo os valores na expressão, teremos: 


— 0,78770 — O adl0=2 ==125:282=3525 


t= lDw—— 
“ J1-0,7877 


Olhando na tabela de t para 8 graus de liberdade (10-2) e um «=0,025, 
já que estamos considerando uma significância de 0,05 e o nosso teste 
é bilateral, teremos um valor tabelado de 2,306. Verificamos que o valor 
calculado de 3,525 está na região de rejeição da hipótese H, e, portanto, 
iremos aceitar a hipótese H,, ou seja, de que p (rho) = O. Então, o resul- 
tado encontrado na amostra (r) parece não ser fruto do acaso, conside- 
rando uma significância de 5%. 


Devemos ter cuidado na interpretação do coeficiente de correlação, pois 
este não implica necessariamente uma medida de causa e efeito. É mais 
seguro interpretá-lo como medida de associação. Por exemplo, podemos 
encontrar uma correlação muito alta entre o aumento dos salários dos 
professores e o consumo de bebidas alcoólicas através de uma série de 
anos em uma dada região. Esse valor de r encontrado foi alto apenas 
porque pode ser que ambas as variáveis tenham sido afetadas por uma 
causa comum, ou seja, a elevação do padrão de vida dessa região. 


TEXTO COMPLEMENTAR 


Através do link que apresentamos a seguir, você poderá fazer os 
testes de hipóteses e de estimativas de correlação de Pearson. 


* Programa estatístico Bioestat. Disponível em: <http://www.mami- 
raua.org.br/downloads/programas >. Acesso em: 21 jan. 2014. 


Resumindo 


Neste Capítulo, conhecemos os principais testes de hipóteses e vimos 
suas aplicações no dia a dia da gestão de empresas públicas. 


Apresentamos a estrutura de um teste de hipótese, de testes de hipó- 
teses para médias, para diferença entre médias e para diferença entre 
proporções. 


Verificamos que o teste de qui-quadrado pode ser utilizado para medir a 
dependência entre variáveis qualitativas. Dessa forma, você terá plenas 
condições de aplicar e de interpretar um teste estatístico de maneira 
correta. 


Além disso, mostramos que é necessário testar a significância estatística 
das correlações amostrais antes de avaliar sua importância prática. 


Com esses conhecimentos, você terá plenas condições de aplicar e de 
interpretar corretamente os testes estatísticos mais comuns. 
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ATIVIDADES 


Chegou o momento de analisarmos se você entendeu o que estuda- 
mos até aqui! Para saber, procure resolver as atividades propostas 
a seguir. Lembre-se: você pode contar com o auxílio de seu tutor. 


1. Um fabricante afirma que seus pneus radiais suportam em mé- 
dia uma quilometragem superior a 40.000 km. Uma prefeitura 
compra os pneus desse fabricante, mas existe uma dúvida no 
seu setor de compras: “A afirmação do fabricante está correta?”. 
Para testá-la, a prefeitura selecionou uma amostra de 49 pneus, 
e os testes apontaram uma média de 43.000 km. Sabe-se que a 
quilometragem de todos os pneus tem desvio padrão de 6.500 
km. Se o comprador (gestor público) testar essa afirmação ao 
nível de significância de 5%, qual será sua conclusão? 


2. Duas técnicas de cobrança de impostos são aplicadas em dois 
grupos de funcionários do setor de cobrança de uma prefeitura. 
A técnica A foi aplicada em um grupo de 12 funcionários e re- 
sultou em uma efetivação média de pagamento de 76% e uma 
variância de 50%. Já a técnica B foi aplicada em um grupo de 15 
funcionários e resultou em uma efetivação média de 68% e uma 
variância de 75%. Considerando as variâncias estatisticamente 
iguais e com uma significância de 0,05, verifique se as efetiva- 
ções de pagamento são estatisticamente iguais. 


3. Um secretário de Educação de uma prefeitura deseja saber se 
há, no futuro, profissionais promissores em escolas de regiões 
pobres e de regiões ricas. Uma amostra de 16 estudantes de 
uma zona pobre resultou, em um teste específico, numa mé- 
dia de 107 pontos e num desvio padrão de 10 pontos. Já 14 
estudantes de uma região rica apresentaram uma média de 112 
pontos e um desvio padrão de 8 pontos. Você deve verificar se 
a média dos pontos dos dois grupos é diferente ou igual afim de 
que o gestor possa saber se ele deve investir em qualquer uma 
das áreas ou se uma delas é mais promissora (primeiro verifique 
se as variâncias são estatisticamente iguais ou diferentes). 


Respostas das Atividades 
Capítulo 1 

dl 

a) Qualitativa Nominal. 
b) Qualitativa Ordinal. 

c) Quantitativa Discreta. 
d) Quantitativa Contínua. 


2 
a) Amostragem Sistemática. 


b) Amostragem por Conglomerado. 
c) Amostragem Estratificada. 

d) Amostragem Aleatória Simples. 
e) Amostragem Sistemática. 

f) Amostragem Aleatória Simples. 
8) Amostragem por Cotas. 

h) Amostragem por Conglomerado. 


Capítulo 2 

ls 

a)n=20,A = 35,k = 5 (aproximadamente), c = 8,75, 
Lia = 20,925. 


CLASSES FREQUÊNCIAS ABSOLUTAS 


E 


CLASSES FREQUÊNCIAS ABSOLUTAS 


TE 


20,00 25,00 30,00 35,00 40,00 45,00 50,00 55,00 60,00 65,00 
Ponto médio das classes 


Frequência Absoluta 
ornws unas 


Capítulo 3 

il; 

= DE 442437 +25+38+..+33 eg 
n 27 
XX an =Xu=25 

Ma = (9) Ae) A 


(elemento de posição 14º) 

Mo = 18,23,25 e 28, todos esses valores têm frequência 2 (multi- 

modal) 

D(-5) (1-26,6)+..+(33-26,62 
n=10 27-1 


Variância: Ss? = = 94,33 
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Desvio Padrão: O = Vs? = 94,3 = 9.7 


Coeficiente de Variabilidade: 


CV = 2.100 =2..100 = 36,47% 


x 26, 


Obs.: Em todas as estatística calculadas a unidade a ser colocada é 
anos, exceto a variância, cuja unidade é dada por anos”. 


ER 

Média 21.0 dias 

Mediana 18.0 dias 

Moda 10.0 dias 

Desvio padrão 12.0 dias 
Coeficiente de Variação 57,3% 


Capítulo 4 
de 
R: 1-(1/3 * 1/5 * 3/10) = 0,98. 


De 

ei) Rs (0) ÁS. 
b) R: 0,0694. 
c) R: 0,1388. 


(90) 


a) R: 60/100. 
b) R: 40/100. 
c) R: 24/100. 
d) R: 76/100. 


Capítulo 5 
" R:P(X=5)=C5 0,1º0,9 "= 0,03192. 


2. Distribuição binomial com n = 4e p = 4% 

a) R: P(x=2). 2.000 = 0,3750 . 2.000 = 750 famílias. 

b) R: [P(1) + P(2)] . 2.000 = (0,25 + 0,375) . 2.000 = 1.250 
famílias. 

c) R: P(0) . 2.000 = 0,0625 . 2.000 = 125 famílias. 


3. R: 1- [P(0)+P(1)], em que a distribuição de probabilidade é uma 
Poisson com parâmetro lambda. 

a) À = 1,4 R= 0,40817 

b) À = 2,8 R=0,76892 

Cc) À = 5,6 R=0,97559 


X-u 2200-2000 | 


1,00 
[o 200 


Para Xx=2.200 59 Z= 


De 
JX=20DZ2=0 
X=24> Z=24-20=0,8 
5 
P20<X<24)=P(O<Z<o,8) = 0,2881 (28,81%) 


b)X=16) Z=16-20=0,8 

5 
= 20) 524 =10 
Hib<i<)=-Pptgo:z=<0)=-PMo0o<=zZz=<00)= 02 
28,81 
J)JX=28DZ=(28-20)/5=1,6 
P(X>28)=P(Z> 1,6) = 0,5 - 0,4452 = 0,0548 
6.1-04=0,95 9a = 0,05 9 0/2 = 0,025 


—= = 1,96. ; —=—=(,588 


yo to 


P(26,412 < y < 27,588) = 0,95 


Capítulo 6 
1. Sugestão: siga os passos para realizar um teste de hipótese: 


Za TOO) LZ=>nsidá 
o /Nn 6500/49 5 Temo 


Conclusão: como o valor calculado foi maior do que o tabelado 
(1,64), ele caiu na região de rejeição de H,. 


2 
H,:n-u,;=0 H:n-n,*0 
po Qu= Ho) -Qu= ni) (16-68)-0 56 
so Nl/n, +1/n, 8V1/12+1/15 
too = 2,060 


Conclusão: como o valor calculado foi maior do que o tabelado 
(2,060), ele caiu na região de rejeição de H,. 


3: 
H:m-u,=0 H,:n-un,*0 


0 
(XM-X)-(m-u) (112-107)-0 “52 
VsPim+ sn, [82 /14+102/16 
v = 29,7425 = 30 (graus de liberdade obtidos pela aproximação). 
lhos — 2,042 (com 30 gl) 
Conclusão: como o valor calculado caiu na região de aceitação, as 


médias são estatisticamente iguais, o que indica que as duas regiões 
apresentam o mesmo potencial. 
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CONSIDERAÇÕES FINAIS 


Com os conhecimentos de estatística adquiridos ao longo deste livro, 
você agora já pode imaginar quantas análises estatísticas de dados po- 
dem ser feitas. Tais análises estão presentes até em uma simples ligação 
telefônica que uma empresa de crédito faz para você numa campanha de 
vendas. A empresa cruza informações como sexo, renda mensal e hábi- 
tos de consumo para oferecer um produto na medida certa; e com base 
nessa análise, seleciona clientes potenciais e os contata por telefone. No 
final, contabiliza o resultado das ligações em termos de vendas efetivas, 
recusas ou necessidade de novos contatos. 


Para fazer tudo isso, é necessário, entretanto, um conhecimento básico 
de estatística para que empresas de Gestão Pública, ou não, venham a 
descobrir como transformar quantidades de números e de gráficos em 
informações que servirão para reduzir os custos e aumentar os lucros. O 
problema é que falta gente qualificada e com conhecimento de mercado 
para realizar as análises de dados. Para você trabalhar com conceitos 
estatísticos em qualquer setor, é necessário desenvolver um raciocínio 
lógico e, também, administrar informações, além de procurar entender 
como e por que as coisas acontecem. 


Decidir algo importante implica avaliar os riscos e as oportunidades. Para 
que isso seja feito com muita precisão, é necessária a estatística! 


Assim, você poderá aplicar os conhecimentos de estatística aprendi- 
dos em áreas como Recursos Humanos, Produção, Financeira e muitas 
outras que você irá identificar à medida que seus conhecimentos de 
Administração forem aumentando. Embora não haja atalhos para se 
aprender a disciplina, esperamos que você tenha gostado de trabalhar 
com Estatística e que ela seja uma importante ferramenta a ser utilizada 
em seu dia a dia. 


Um grande abraço e sucesso em sua vida profissional, com bastante 
estatística! 


É o que desejamos a você. 
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